Long context LLM : 2부 RoPE Extension Method
8
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

RoPE Extension Method을 통한 Long Context LLM 개선

이 게시물은 RoPE(Rotary Position Embedding) 레이어를 수정하여 원래 제한된 context size보다 훨씬 더 긴 문맥을 수용할 수 있는 Position Interpolation 방법을 소개합니다.

Position Interpolation 개념

  • RoPE는 query와 key 함수 내 rotary matrix에 위치 정보가 반영됨
  • 기존 pretrained LLM은 제한된 context length 내에서 학습되어 초과 시 attention score가 폭발하는 문제가 발생
  • Position Interpolation은 늘리고자 하는 context length까지 선형 보간(linear interpolation)을 적용하여 attention score를 안정화함

실험 결과 및 장점

  • Position Interpolation 적용 후 적은 양의 finetuning만으로도 우수한 perplexity 성능 확보
  • 기존의 완전한 finetuning보다 효율적임

향후 연구 방향

NTK 관련 다양한 interpolation 기법이 추가로 다뤄질 예정임

연관 게시글