LLM 쉽고 빠르게 서빙하기
9
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

LLM 쉽고 빠르게 서빙하기

이 게시물은 토스증권이 LLM(Large Language Model) 추론 속도 개선과 모델 서빙의 사용성 향상을 위해 시도한 방법들을 소개합니다.

LLM 추론 속도 개선

  • Autoregressive 모델의 본질적 속도 문제와 KV cache를 활용한 최적화
  • paged KV cache, kernel fusion 등 메모리와 연산 효율화 기술 적용
  • 여러 오픈소스 런타임 비교 후 vllm과 Triton Inference Server 조합 선택

모델 서빙의 사용성 향상

  • Kubernetes 환경에서의 복잡한 배포 과정을 개선
  • 공통화된 코드와 Docker 이미지 공유로 개발자 부담 감소
  • Kserve 도입으로 yaml 파일만으로 간단히 모델 배포 가능
  • Grafana 대시보드로 TPS, latency 모니터링 및 알림 체계 구축

결론

토스증권은 성능과 사용성을 모두 고려해 LLM 서비스를 실용적으로 운영하며, 더 나은 금융서비스 제공을 목표로 하고 있습니다.

연관 게시글