MLXP : Kubernetes LLM Serving 최적화 기술 도입기
16
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Kubernetes 프로덕션 환경에 LLM 서빙 최적화 기술을 도입한 과정을 공유합니다.
KV Cache 인지 라우팅, Prefix Cache, 분산 멀티노드 서빙 등 최신 최적화 기술을 적용하면서 기존 인프라 스택(Istio 서비스 메시, 스케줄러, Pod 보호 정책)과 충돌한 실전 문제를 다룹니다.
문제 진단과 해결 과정에서 그룹 DisruptionBudget 같은 운영 요소를 함께 살펴봅니다.
발표 대상은 Kubernetes 위 GPU 워크로드를 운영하는 플랫폼/ MLOps / Infra 및 Istio 환경의 AI 워크로드를 다루는 DevOps 엔지니어로 제시됩니다.