0
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 무신사의 AI 인프라 구축 기록입니다.
핵심
- 온프레미스 GPU 도입으로 지속 가능한 AI 운영과 비용 절감 목표
- EKS Hybrid Node 기반 온프레+AWS 통합 클러스터 구현 과정과 한계
- AutoMode와 Karpenter 충돌로 self-managed Karpenter 선택 및 아키텍처 전환
- 네트워크·성능 최적화: cilium eBPF로 kube-proxy 대체, NLB·HTTP3 도입
- Gateway API Inference Extension 기반 우선순위 라우팅 실험으로 QPS·레이턴시 개선
- OpenTelemetry로 플랫폼 중립적 관측 구축 및 로그·메트릭 파이프라인 정립
- 결과: 최대 95% 비용 절감, 지속 가능·초저지연·무중단 AI 서비스 지향
