실시간 유효 광고 선정을 위한 Flink에서 Apache Paimon 도입기
68
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

실시간 유효 광고 선정을 위한 Flink와 Apache Paimon 도입기

이 게시물은 ADVoost Shopping 프로젝트에서 Apache Flink와 Apache Paimon을 활용해 실시간 유효 광고 선정 데이터 파이프라인을 구축한 경험을 공유합니다.

주요 아키텍처 및 기능

  • Kafka로부터 CDC 데이터를 Flink로 처리하여 Paimon에 적재하고 부분 업데이트 기능 활용
  • Paimon의 타임 트래블, 변경 로그, rowkind 재정의 기능으로 실시간 추가/수정/삭제 지원
  • 일별 캠페인 소진량 초기화와 스트리밍 조인으로 실시간 데이터 활용
  • 상품 광고 매핑과 로그 수집 집계 파이프라인 구성
  • AI Serving API에서 Feature Store의 데이터를 활용해 광고 최적화 진행

Flink와 Paimon 도입 이유

  • Flink의 스트림 처리와 Paimon의 Flink 통합성, 실시간 조인 및 exactly-once 처리 보장
  • 중간 데이터 디버깅 및 분석에 유용한 Paimon의 타임 트래블 및 스냅샷 기능
  • Flink와 Spark 모두 지원하는 호환성

Paimon 주요 기능 및 구조

  • LSM 트리 기반 구조와 자동 compaction, 삭제 벡터, 동적 버킷팅
  • PK 테이블과 비PK 테이블 지원, 다양한 compaction 전략 제공
  • 변경 로그 프로듀서 모드로 실시간 변경 사항 제공

연관 게시글