통합 데이터 허브로 가는 길 - Part 1
아키텍처
통합 데이터 허브로 가는 길 - Part 1
두줄요약
데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.
문제 상황
- 데이터는 많지만 도구와 작업 흐름이 분산된 상태
- Zeppelin, AWS Console, DBeaver, Slack, Jira 등으로 탐색·테스트·운영이 분절
- SQL 수정, 배치 등록, 알림 설정까지 수작업 의존도가 높은 구조
해결 방법
- 탐색부터 시스템화까지 이어지는 단일 플랫폼 지향
- SQL 모델을 배치 파이프라인과 애플리케이션에 직접 연결하는 흐름 설계
- dbt와 JupyterHub 조합으로 분석과 운영을 하나의 작업 흐름으로 통합
선택 이유
- Zeppelin은 SQL 실행기로는 충분했지만 확장성, Python 생태계, 운영 유연성에 한계
- Spark로 감싼 Athena 쿼리는 단순 수정에도 재빌드와 재배포가 필요한 비효율 발생
- dbt는 SQL 중심 모델링과 자동화에 적합했으나 Git 워크플로우 장벽이 존재
