Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기 - 펫프렌즈 | Velopers

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기

2025년 11월 7일

103

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기

이 게시물은 펫프렌즈에서 기존 배치 방식 데이터 수집을 Kafka 기반 CDC(Change Data Capture)와 S3 저장을 활용한 실시간 파이프라인으로 전환한 경험을 공유합니다.

실시간 수집 도입 배경과 설계

MariaDB Trigger 기반 로그 테이블의 관리 어려움과 확장성 한계
Kafka CDC 토픽 활용과 S3 + Athena 조합으로 데이터 레이크 구축
Connector 대신 컨슈머 직접 개발로 Parquet 포맷 저장과 비즈니스 로직 반영

핵심 설계와 운영 전략

At-least-once 메시지 처리 보장 및 주기적 Flush 전략 적용
종료 및 리밸런스 시점 처리로 중복 업로드 방지
레코드 단위와 배치 단위 실패 처리 정책 및 Slack 알림 연동
로그, 오프셋 메타데이터, 인프라 리소스 모니터링 체계 구축

운영 결과와 향후 계획

운영 부담 경감과 데이터 생애주기 통합 관리 효과
확장 가능한 CDC 로그 수집 및 Apache Iceberg 도입 검토로 데이터 일관성 강화

연관 게시글

로그 파이프라인 개선기 - 기존 파이프라인 문제 정의 및 해결 방안 적용

로그 파이프라인 개선기 - 기존 파이프라인 문제 정의 및 해결 방안 적용

쏘카 • 2025년 2월 26일

올리브영의 실시간 캠페인 타겟팅을 위한 CDC 전환기

올리브영의 실시간 캠페인 타겟팅을 위한 CDC 전환기

올리브영

올리브영 • 2025년 12월 30일

리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 1부: S3 Tables에 CDC 데이터 레이크 구축하기

리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 1부: S3 Tables에 CDC 데이터 레이크 구축하기

AWS

AWS • 2025년 10월 29일