LLaDA: Diffusion language model과 LLM reversal curse
34
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

LLaDA: Diffusion language model과 LLM reversal curse

이 게시물은 Alibaba Ant Group에서 제안한 LLaDA 모델을 중심으로, 기존 auto-regressive 언어 모델과 달리 diffusion 방식을 활용한 언어 모델 학습 방법을 설명합니다.

주요 특징

  • 전체 시퀀스에 대한 omni-directional attention을 통해 양방향 학습 가능
  • masked token 예측을 diffusion의 denoising 과정으로 해석
  • inference 시 전체 토큰을 한 번에 생성하고 일부를 다시 마스킹하는 반복적 샘플링 적용

성과와 한계

  • LLM reversal curse 문제를 개선하여 forward와 reversal task 간 성능 격차를 줄임
  • 코드 도메인의 fill-in-the-middle 문제 해결에 가능성 제시
  • 추론 효율성 낮고 KV-cache 미적용으로 연산 비용 큼
  • 대형 모델 검증 부족, Google Gemini Diffusion 모델 공개 대기 중

연관 게시글