Dataflow로 컬리의 준실시간 수요 예측모델 파이프라인 구축하기 - 1편
7
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Dataflow를 이용한 준실시간 수요 예측 모델 파이프라인 구축

이 게시물은 컬리의 준실시간 수요 예측 시스템 파이프라인을 구글 Dataflow 서비스 기반으로 구축한 경험을 상세히 소개합니다.

Dataflow 및 Apache Beam 개요

  • Dataflow는 배치 및 스트리밍 처리를 지원하는 완전관리형 클라우드 서비스
  • Apache Beam 프로그래밍 모델로 Dataflow 파이프라인을 작성하며, 작업은 준비 단계(Queued state)와 실행 단계(Running state)로 구분됨
  • 배치 파이프라인과 스트리밍 파이프라인 유형의 차이점 설명

파이프라인 구축 및 배포

  • BigQuery 기반 데이터와 Kafka 스트리밍 데이터를 활용하여 모델 서빙 파이프라인 구현
  • Flex 템플릿을 사용해 커스텀 파이프라인을 패키징하고 재사용 가능하게 제작
  • CI/CD는 GitHub Actions를 통해 템플릿 빌드부터 Dataflow 배포까지 자동화

설정 팁 및 권한 관리

  • 스트리밍 엔진 활용으로 비용 최적화 및 성능 향상 가능
  • save_main_session 옵션으로 파이프라인 코드의 global 세션을 저장해 에러 방지
  • Dataflow 서비스 에이전트와 워커 서비스 계정 권한 설정 중요성 강조

다음 편에서는 Beam 모델을 활용한 실제 파이프라인 구성 사례를 다룰 예정입니다.

연관 게시글