통합 데이터 허브로 가는 길 - Part 1

아키텍처

통합 데이터 허브로 가는 길 - Part 1

밸런스히어로

밸런스히어로2025년 11월 3일

두줄요약

데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.

문제 상황

데이터는 많지만 도구와 작업 흐름이 분산된 상태
Zeppelin, AWS Console, DBeaver, Slack, Jira 등으로 탐색·테스트·운영이 분절
SQL 수정, 배치 등록, 알림 설정까지 수작업 의존도가 높은 구조

해결 방법

탐색부터 시스템화까지 이어지는 단일 플랫폼 지향
SQL 모델을 배치 파이프라인과 애플리케이션에 직접 연결하는 흐름 설계
dbt와 JupyterHub 조합으로 분석과 운영을 하나의 작업 흐름으로 통합

선택 이유

Zeppelin은 SQL 실행기로는 충분했지만 확장성, Python 생태계, 운영 유연성에 한계
Spark로 감싼 Athena 쿼리는 단순 수정에도 재빌드와 재배포가 필요한 비효율 발생
dbt는 SQL 중심 모델링과 자동화에 적합했으나 Git 워크플로우 장벽이 존재

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...