컬리의 BigQuery 도입기 - 2부

컬리의 BigQuery 도입기 - 2부

2
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

컬리의 BigQuery 도입기 - 2부

이 게시물은 컬리의 신규 데이터 파이프라인 아키텍처와 BigQuery 도입 결과 및 효과를 소개합니다.

신규 데이터 파이프라인 아키텍처

  • 정형 데이터는 RDBMS CDC 로그를 Kafka를 통해 BigQuery의 CDC 로그 테이블로 스트리밍
  • 비정형 데이터는 DocumentDB Change Stream을 Kafka로 전송 후 JSON Format Processing을 수행
  • 두 파이프라인 모두 Merge Procedure를 이용해 원본 DB와 동일한 상태의 Final 테이블 생성

도입 결과 및 효과

  • 데이터 레이크하우스 구축으로 대용량 로그와 이력 데이터를 장기간 보관 가능
  • 기존 스크립트 기반 UPSERT 대비 BigQuery Merge 문으로 데이터 적재 속도 대폭 개선 (30분→13초)
  • 쿼리 응답 시간 감소 및 비용 절감 효과 달성