RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

AI

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

빅웨이브에이아이

빅웨이브에이아이2024년 1월 24일

두줄요약

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.

핵심 내용

LLM 성능 향상을 위한 정렬 단계로 SFT와 RLHF를 비교
RLHF는 사람의 선호 피드백을 보상으로 삼아 모델 출력을 조정
Reward Model, PPO, KL Penalty, DPO, Rejection Sampling Fine-tuning 등 주요 방법 정리

구조와 흐름

사전 학습 단계의 한계와 환각, 비윤리적 답변 문제 제기
SFT로 지시 따르기 학습 후, RLHF로 사람 선호에 맞게 추가 정렬
Reward Model을 거쳐 강화학습 또는 직접 선호 최적화로 성능 개선

선택 이유

사람의 의도에 맞는 답변 생성 필요
대규모 문항을 사람이 직접 평가하기 어려워 Reward Model 도입
RLHF의 복잡성과 불안정성을 줄이기 위해 DPO 같은 대안 활용

주의할 점

Reward Hacking과 Mode Collapse 위험 존재
Reward Model 편향과 취약점이 전체 학습 성능에 큰 영향
모델 수 증가로 인한 컴퓨팅 자원 부담과 하이퍼파라미터 민감성

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...