
DBT, Airflow를 활용한 데이터 계보 중심 파이프라인 만들기
DBT와 Airflow로 데이터 계보 중심 파이프라인 Flow.er를 구축한 사례를 소개했습니다. 운영 비용 절감과 조직 확장을 위한 구성 요소와 개선 경험을 공유했습니다.

DBT와 Airflow로 데이터 계보 중심 파이프라인 Flow.er를 구축한 사례를 소개했습니다. 운영 비용 절감과 조직 확장을 위한 구성 요소와 개선 경험을 공유했습니다.


Airflow Breeze Manager는 여러 브랜치를 병렬로 개발할 때 발생하는 포트 충돌과 환경 재구성을 줄이기 위해 소개되었습니다. 각 브랜치에 독립된 Breeze 환경을 자동으로 구성해 빠른 전환과 작업을 돕습니다.


Kafka 소비 결과를 Parquet으로 변환해 S3에 적재하는 실시간 수집 파이프라인을 설계하고 구축했습니다. 또한 Flush, 커밋, 모니터링 체계를 통해 누락 없이 안정적으로 운영하는 방법을 정리했습니다.

버즈베네핏 백엔드 팀이 데이터 중심 설계와 확장 가능한 파이프라인, 모니터링 체계를 어떻게 구축했는지 소개했습니다. Feature Flag와 실험 지원으로 제품 검증 속도를 높인 사례도 함께 다뤘습니다.


Docker 기반 Airflow의 운영 한계를 정리하고 Kubernetes/EKS로 이전한 과정을 공유했습니다. MultiExecutor, Git-Sync, Remote Logging, ArgoCD로 운영 자동화와 격리를 강화했습니다.


Airflow Task SDK는 Dag와 내부 시스템을 분리해 업그레이드 호환성과 안정성을 높이는 방향을 소개했습니다. 또한 Supervisor와 Task Runner 구조로 보안과 확장성까지 강화하는 변화를 설명했습니다.


Amazon MWAA 환경에서 최소 권한 원칙을 적용하는 보안 구성을 정리했습니다. 보안 그룹, NACL, VPC 엔드포인트, IAM 정책을 세분화해 네트워크와 서비스 접근을 제한했습니다.


Airflow와 Databricks로 디자인허브 정산 파이프라인을 리팩토링한 과정을 정리했습니다. 운영 DB 부하를 줄이고 멱등성, 가시성, 협업 체계를 함께 개선했습니다.


LG전자가 Amazon Bedrock으로 소셜미디어 제품 트렌드 모니터링 시스템을 구축한 사례를 다뤘습니다. DeepEval 기반 평가와 모델 비교를 통해 정확도, 속도, 비용을 함께 검증했습니다.


웹 크롤링 데이터로 LLM 사전학습 데이터셋을 만든 경험과 어려움을 정리했습니다. NVIDIA EMNLP 2024 논문을 통해 품질 필터링과 중복 제거 전략을 체계적으로 살펴봤습니다.


Apache Airflow 3.0의 i18n 기능과 한국어 번역 기여 방법을 소개했습니다. Breeze로 로컬 테스트하고 PR 승인 절차를 따라 번역 품질을 유지하는 흐름을 정리했습니다.

DataHub로 메타데이터의 수집과 신선도 관리를 먼저 정비했습니다. 이후 DataWiki와 SSOT를 더해 도메인 맥락까지 담는 데이터 탐색 환경을 구축했습니다.