대규모 CDC Pipeline 운영을 위한 Debezium 개선 여정

대규모 CDC Pipeline 운영을 위한 Debezium 개선 여정

7
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

대규모 CDC Pipeline 운영과 Debezium 개선

이 게시물은 토스증권에서 Change Data Capture(CDC) 파이프라인의 운영 현황을 평가하고, Debezium 기반 CDC 파이프라인의 성능 개선 여정을 소개합니다.

핵심 운영 지표 선정

  • Source-to-Target Latency: 원천 데이터베이스에서 타깃 시스템까지 데이터 전달 시간
  • Events Per Second: 초당 처리 데이터 양
  • CDC Pipeline Scalability: 신규 파이프라인 구축 및 확장 시간

Debezium 개선 및 성능 모니터링

  • Source.ts_ms 필드를 활용해 end-to-end latency 측정 도입
  • Table별 생성, 수정, 삭제 이벤트 수를 세분화하여 처리량 모니터링 강화
  • Apache Sqoop을 활용한 초기 스냅샷 처리 시간 단축
  • Snapshot 모드에 테이블 추가 기능을 개발하여 Source Connector 수 증가 문제 해결

성과와 향후 방향

이를 통해 CDC 파이프라인의 지연과 처리량을 명확히 파악할 수 있게 되었고, 신규 파이프라인 추가 시간을 최대 12시간에서 1시간, 확장 시간은 5분 내로 줄여 운영 효율성을 크게 향상시켰습니다.
데이터 정합성 지표는 추후 다룰 예정입니다.