LLM Knowledge Distillation 훑어보기 - part 1
39
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

LLM Knowledge Distillation 소개

이 게시물은 대형 언어 모델(LLM)의 Knowledge Distillation 기법에 대해 설명합니다.

기본 개념과 효과

  • Knowledge Distillation은 큰 Teacher 모델의 지식을 작은 Student 모델에 전수하는 방법론입니다.
  • 이를 통해 작은 모델이 성능 격차를 줄이고 빠른 추론 속도를 구현할 수 있습니다.

주요 Distillation 기법

  • Supervised KD: Teacher와 Student의 토큰 확률 분포를 KL divergence 최소화로 맞추는 방법
  • Synthetic Data Distillation: Teacher 모델의 응답을 데이터로 활용하여 Student 모델을 학습, API 접근만으로도 가능
  • Generalized KD(GKD): On-policy 학습으로 Train-Inference 분포차 문제를 해결, Forward KL과 Reverse KL 조합 사용

추가 내용

  • Distillation은 단순 성능 향상뿐 아니라 추론 속도 개선에도 활용됩니다.
  • Part 2에서는 Speculative Decoding 등 최신 기법들을 다룰 예정입니다.

연관 게시글