당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기
31
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

당근 컬럼 레벨 데이터 리니지 구축

이 게시물은 당근 데이터 가치화팀이 BigQuery 환경에서 SQL 파싱을 활용해 컬럼 레벨 데이터 리니지를 구축한 경험을 공유합니다.

주요 내용

  • 데이터의 신뢰성과 투명성을 높이기 위해 테이블뿐 아니라 컬럼 단위까지 의존 관계를 추적
  • BigQuery INFORMATION_SCHEMA와 OpenLineage의 한계로 인해 직접 SQL 쿼리 파싱 방식을 선택
  • sqlglot, Spark, Airflow를 활용해 대량 쿼리에서 컬럼 의존성을 추출하고 MCP 서버를 통해 조회 지원
  • CTE, 서브쿼리, alias 등 복잡한 SQL 패턴 처리에 도전하며 점진적으로 커버리지 확장
  • 리니지 데이터를 원본과 목적별 뷰로 분리해 효율적 관리 및 다양한 활용 시나리오 대응

성과 및 향후 계획

  • 하루 15,000개 테이블과 80만 컬럼 의존 관계 자동 추적
  • 데이터 신뢰성 향상과 빠른 문제 해결 지원
  • 실시간 업데이트와 시각화 도구 개발 예정

연관 게시글