
39
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
LLM Knowledge Distillation 소개
이 게시물은 대형 언어 모델(LLM)의 Knowledge Distillation 기법에 대해 설명합니다.기본 개념과 효과
- Knowledge Distillation은 큰 Teacher 모델의 지식을 작은 Student 모델에 전수하는 방법론입니다.
- 이를 통해 작은 모델이 성능 격차를 줄이고 빠른 추론 속도를 구현할 수 있습니다.
주요 Distillation 기법
- Supervised KD: Teacher와 Student의 토큰 확률 분포를 KL divergence 최소화로 맞추는 방법
- Synthetic Data Distillation: Teacher 모델의 응답을 데이터로 활용하여 Student 모델을 학습, API 접근만으로도 가능
- Generalized KD(GKD): On-policy 학습으로 Train-Inference 분포차 문제를 해결, Forward KL과 Reverse KL 조합 사용
추가 내용
- Distillation은 단순 성능 향상뿐 아니라 추론 속도 개선에도 활용됩니다.
- Part 2에서는 Speculative Decoding 등 최신 기법들을 다룰 예정입니다.