팀 내 전처리 프레임워크 dagster 도입기
0
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 팀에서 RAG 기반 문서 전처리 파이프라인을 안정적으로 운영하기 위해 dagster를 도입한 과정을 공유하는 내용입니다. 기존 FastAPI background tasks 구조에서 문서 전처리가 같은 인스턴스에서 동시에 실행되며 리소스 경합으로 타임아웃이나 OOM, 파드 재시작에 따른 요청 취소가 발생해 준비 시간 예측이 어려웠습니다. dagster 도입 후에는 FastAPI가 게이트웨이로 동작하고 내부에서 dagster 워크플로우를 실행하며, K8sRunLauncher로 워크플로우 실행 단위 파드 격리를 적용해 특정 문서 실패가 다른 처리에 영향을 덜 주도록 구성했습니다. dagster 대시보드로 단일/전체 워크플로우 진행 상황과 스텝별 소요 시간·메타데이터를 추적할 수 있어 로깅 의존 디버깅의 부담이 줄었습니다. 추가로 OSS 환경에서의 세밀한 RBAC 한계가 있어 SSO 기반 최소 방어를 두었으나 확장 시 권한 관리에 대한 추가 고민이 필요하다고 회고했습니다. 대시보드 외에도 세밀한 모니터링을 위해 외부 모니터링 연동이 필요해졌다고 정리했습니다.

연관 게시글