당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기
2
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 당근에서 서비스 DB 데이터를 BigQuery로 전송하는 ELT를 위해 DT Platform을 만든 과정을 공유하는 글입니다.
기존에는 ELT 설정과 실행 코드가 단일 레포로 강결합되어 PR 리뷰 병목과 서비스팀의 코드 학습 부담이 발생했음 설명합니다.
Airbyte 검토 후 대규모 테이블 동기 시간이 길고 튜닝 제약이 커서, Airflow+Spark 실행 레이어는 유지하고 선언적 파이프라인 정의 계층을 직접 만든 방향을 채택했음 언급합니다.
DT Platform은 UI에서 스트림을 선택하고 스케줄을 설정한 뒤 리뷰·승인으로 Airflow에 자동 반영되어 Spark Job이 실행되도록 설계했음 정리합니다.
파이프라인 정의와 실행을 S3의 JSON DSL로 연결해 코드-설정 결합 문제를 끊고, dropColumn·filter·JDBC Partition·Spark SQL 변환 등 설정을 no-code로 제공함을 강조합니다.
기존 203개(MySQL/PostgreSQL) 파이프라인 마이그레이션을 Claude Code 기반 에이전트와 Notion 작업 단위 레지스트리로 약 2주 내 완료했음 밝힙니다.
출시 이후 파이프라인 추가/변경 요청 리드타임과 요청 수 증가, UI 기반 가시화·비용 인지·보안 가드레일 강화 등 운영 효과를 확인했음 제시합니다.

