
컬리의 BigQuery 도입기 - 2부
2
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
컬리의 BigQuery 도입기 - 2부
이 게시물은 컬리의 신규 데이터 파이프라인 아키텍처와 BigQuery 도입 결과 및 효과를 소개합니다.신규 데이터 파이프라인 아키텍처
- 정형 데이터는 RDBMS CDC 로그를 Kafka를 통해 BigQuery의 CDC 로그 테이블로 스트리밍
- 비정형 데이터는 DocumentDB Change Stream을 Kafka로 전송 후 JSON Format Processing을 수행
- 두 파이프라인 모두 Merge Procedure를 이용해 원본 DB와 동일한 상태의 Final 테이블 생성
도입 결과 및 효과
- 데이터 레이크하우스 구축으로 대용량 로그와 이력 데이터를 장기간 보관 가능
- 기존 스크립트 기반 UPSERT 대비 BigQuery Merge 문으로 데이터 적재 속도 대폭 개선 (30분→13초)
- 쿼리 응답 시간 감소 및 비용 절감 효과 달성