검색 Indexing 파이프라인 개선기
87
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

검색 Indexing 파이프라인 개선기

이 게시물은 당근의 검색 플랫폼에서 색인 파이프라인의 문제점과 이를 해결하기 위한 개선 과정을 설명합니다.

주요 개선 목표

  • 설정 기반 인터페이스로 자동화 및 생산성 향상
  • 외부 서비스 DB 의존성 최소화 및 데이터 안전성 확보
  • 풀색인 비용과 부담 감소
  • 이벤트 처리 고가용성 시스템 구축

구현 방법

  • yaml 기반 인터페이스와 코드 생성으로 스키마 안전성 강화
  • BigQuery를 Offline Storage로 활용해 데이터 백필 및 상태 변경 이벤트 처리
  • 파티셔닝 및 복제 테이블 생성으로 대용량 데이터 색인 최적화
  • Streaming Tumbling TimeWindow를 통한 대량 이벤트 배치 처리

성과 및 향후 계획

  • 수억 건 데이터 색인을 1~2시간 내 처리하며 비용 절감
  • 초당 수만 건 이벤트도 1.5core pod 8대로 안정 처리
  • Vector Embedding, LLM, 모델 인퍼런스 등 기능 확장 중