
1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
Kurly만의 MLOps 구축 - GPU 사용 환경 만들기
이 게시물은 Kurly 데이터 플랫폼팀이 MLOps 플랫폼 구축을 위해 GPU 자원 관리와 자동 확장 방안을 도입한 경험을 공유합니다.MLOps 필요성과 GPU 관리
- ML 시스템 운영 효율화를 위한 MLOps 도입 배경
- GPU 자원의 효율적 사용과 자동 프로비저닝/디프로비저닝 필요성
- 기존 툴(JupyterHub, Airflow, MLFlow) 통합 환경 구축 목표
Karpenter를 활용한 자동 확장
- Kubernetes 환경에서 GPU 노드 자동 확장 및 축소를 위한 Karpenter 도입
- 기존 Cluster Auto Scaler 대비 빠르고 단순한 노드 관리
- Provisioner를 통한 인스턴스 타입과 노드 조건 설정
- NVIDIA device plugin 설치로 GPU 노드 활용 가능
- Affinity와 Consolidation을 통한 노드 효율 관리 및 비용 최적화
향후 계획
기본 환경 구축을 마친 후 GPU operator와 Admission Control 적용 등으로 MLOps 환경을 점진적으로 개선할 예정입니다.