당근 데이터 디스커버리 구축기: DataHub와 DataWiki로 여는 데이터 탐색의 첫걸음
56
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

당근 데이터 디스커버리 구축기

이 게시물은 당근에서 DataHub와 DataWiki를 활용해 데이터 탐색과 관리 체계를 구축한 과정을 설명합니다.

첫 번째 솔루션: DataHub

  • Kafka 기반 실시간 스트리밍으로 메타데이터 자동 수집
  • MySQL, Elasticsearch, 그래프 DB를 통한 저장, 검색, 관계 탐색 지원
  • Airflow 활용한 메타데이터 업데이트 자동화 및 신선도 모니터링
  • 전사 구성원에게 Editor 권한 부여해 데이터 민주화 실현

두 번째 솔루션: DataWiki

  • 노션 기반의 데이터 위키로 비즈니스 로직, 쿼리 예시 등 맥락 제공
  • 도메인 중심 탐색 구조와 템플릿 제공으로 참여 허들 낮춤
  • BigQuery를 SSOT로 지정해 DataHub와 연계, 메타데이터 일관성 확보

현재와 미래

  • 99% 이상의 데이터 신선도와 신뢰성 확보
  • 플랫폼 분리, 관리 어려움, 커스터마이징 한계 등 과제 존재
  • 대화형 챗봇 인터페이스 등 차세대 데이터 탐색 환경 계획 중

연관 게시글