Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기
96
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기

이 게시물은 펫프렌즈에서 기존 배치 방식 데이터 수집을 Kafka 기반 CDC(Change Data Capture)와 S3 저장을 활용한 실시간 파이프라인으로 전환한 경험을 공유합니다.

실시간 수집 도입 배경과 설계

  • MariaDB Trigger 기반 로그 테이블의 관리 어려움과 확장성 한계
  • Kafka CDC 토픽 활용과 S3 + Athena 조합으로 데이터 레이크 구축
  • Connector 대신 컨슈머 직접 개발로 Parquet 포맷 저장과 비즈니스 로직 반영

핵심 설계와 운영 전략

  • At-least-once 메시지 처리 보장 및 주기적 Flush 전략 적용
  • 종료 및 리밸런스 시점 처리로 중복 업로드 방지
  • 레코드 단위와 배치 단위 실패 처리 정책 및 Slack 알림 연동
  • 로그, 오프셋 메타데이터, 인프라 리소스 모니터링 체계 구축

운영 결과와 향후 계획

  • 운영 부담 경감과 데이터 생애주기 통합 관리 효과
  • 확장 가능한 CDC 로그 수집 및 Apache Iceberg 도입 검토로 데이터 일관성 강화

연관 게시글