데이터카탈로그에서 DataHub를 이용하는 방법
28
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

데이터카탈로그에서 DataHub 활용 방법

이 게시물은 사내 데이터카탈로그에 DataHub 오픈소스 프로젝트를 기반으로 구축하고, 사용자 친화적 UI/UX 개발과 성능 최적화를 위해 API 대신 OpenSearch와 DB에 직접 쿼리하는 방식을 채택한 과정을 설명합니다.

주요 내용

  • DataHub의 기본 구조 및 EKS와 AWS 서비스를 활용한 배포 환경
  • OpenSearch 직접 활용으로 컬럼 단위 검색 기능 구현 및 성능 개선
  • 데이터 리니지 기능 구현과 시각화를 위한 재귀적 OpenSearch 쿼리 적용
  • DataHub 버전업에 따른 검색 결과 변화 대응 및 인덱스 설정 조정
  • Spark 리니지 모듈 개선과 다양한 Spark 버전 호환 문제 해결
  • Redash BI 도구 통합 성능 개선 및 SQL 파싱 방식 변경

결론

데이터카탈로그는 지속적으로 기능을 고도화하며 전사 구성원이 데이터를 쉽게 활용하도록 노력하고 있습니다.

연관 게시글