우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기
0
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 무신사의 AI 인프라 구축 기록입니다.

핵심

  • 온프레미스 GPU 도입으로 지속 가능한 AI 운영과 비용 절감 목표
  • EKS Hybrid Node 기반 온프레+AWS 통합 클러스터 구현 과정과 한계
  • AutoMode와 Karpenter 충돌로 self-managed Karpenter 선택 및 아키텍처 전환
  • 네트워크·성능 최적화: cilium eBPF로 kube-proxy 대체, NLB·HTTP3 도입
  • Gateway API Inference Extension 기반 우선순위 라우팅 실험으로 QPS·레이턴시 개선
  • OpenTelemetry로 플랫폼 중립적 관측 구축 및 로그·메트릭 파이프라인 정립
  • 결과: 최대 95% 비용 절감, 지속 가능·초저지연·무중단 AI 서비스 지향

연관 게시글