68
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
실시간 유효 광고 선정을 위한 Flink와 Apache Paimon 도입기
이 게시물은 ADVoost Shopping 프로젝트에서 Apache Flink와 Apache Paimon을 활용해 실시간 유효 광고 선정 데이터 파이프라인을 구축한 경험을 공유합니다.주요 아키텍처 및 기능
- Kafka로부터 CDC 데이터를 Flink로 처리하여 Paimon에 적재하고 부분 업데이트 기능 활용
- Paimon의 타임 트래블, 변경 로그, rowkind 재정의 기능으로 실시간 추가/수정/삭제 지원
- 일별 캠페인 소진량 초기화와 스트리밍 조인으로 실시간 데이터 활용
- 상품 광고 매핑과 로그 수집 집계 파이프라인 구성
- AI Serving API에서 Feature Store의 데이터를 활용해 광고 최적화 진행
Flink와 Paimon 도입 이유
- Flink의 스트림 처리와 Paimon의 Flink 통합성, 실시간 조인 및 exactly-once 처리 보장
- 중간 데이터 디버깅 및 분석에 유용한 Paimon의 타임 트래블 및 스냅샷 기능
- Flink와 Spark 모두 지원하는 호환성
Paimon 주요 기능 및 구조
- LSM 트리 기반 구조와 자동 compaction, 삭제 벡터, 동적 버킷팅
- PK 테이블과 비PK 테이블 지원, 다양한 compaction 전략 제공
- 변경 로그 프로듀서 모드로 실시간 변경 사항 제공