
137
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
토스증권 실시간 데이터 파이프라인 운영 방법: Lineage 시각화
이 게시물은 토스증권에서 수천 개의 실시간 데이터 파이프라인을 대규모로 구성하고 운영한 경험을 공유합니다.실시간 데이터 파이프라인의 중요성
- 실시간 데이터 파이프라인은 데이터 생성 즉시 처리하여 빠른 서비스 반응성을 보장합니다.
- 서비스 성장으로 OLTP에서 OLAP 배치 처리의 한계를 극복하기 위해 도입되었습니다.
- CQRS 아키텍처와 연계되어 데이터 이동 및 집계 문제를 해결합니다.
운영의 핵심 요소
- 최소 지연 시간과 365일 무중단 운영 보장
- 데이터 유실 방지 및 중복 최소화
- 파이프라인 간 독립적 리소스 할당과 확장성 고려
- 파이프라인 시각화로 운영 편의성과 커뮤니케이션 비용 절감
Lineage 시각화 구현
- 파이프라인 관계를 DAG(Directed Acyclic Graph) 형태로 표현
- MongoDB에 메타데이터 저장 및 Graph Search 활용
- 웹 서비스를 통해 파이프라인 검색과 상세 정보 제공
- Kafka, Flink, Iceberg, ClickHouse 등 다양한 시스템과의 연동 사례 소개
미래 계획
- 메트릭 연동으로 Latency, 전송량 표시
- 목표 SLA 및 담당자 정보 포함 메타데이터 관리
- DBT와 연동하여 실시간과 배치 파이프라인의 통합 리니지 구현