
9
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
LLM 쉽고 빠르게 서빙하기
이 게시물은 토스증권이 LLM(Large Language Model) 추론 속도 개선과 모델 서빙의 사용성 향상을 위해 시도한 방법들을 소개합니다.LLM 추론 속도 개선
- Autoregressive 모델의 본질적 속도 문제와 KV cache를 활용한 최적화
- paged KV cache, kernel fusion 등 메모리와 연산 효율화 기술 적용
- 여러 오픈소스 런타임 비교 후 vllm과 Triton Inference Server 조합 선택
모델 서빙의 사용성 향상
- Kubernetes 환경에서의 복잡한 배포 과정을 개선
- 공통화된 코드와 Docker 이미지 공유로 개발자 부담 감소
- Kserve 도입으로 yaml 파일만으로 간단히 모델 배포 가능
- Grafana 대시보드로 TPS, latency 모니터링 및 알림 체계 구축