Multimodal LLM 첫 삽 뜨기
2
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Multimodal LLM 첫 삽 뜨기

이 게시물은 LLM 시대가 멀티모달 LLM 시대로 전환됨에 따라 관련 아키텍처, 튜닝 기법, 그리고 RLHF 적용 방법을 정리합니다.

주요 아키텍처 분류

  • Projection matrix 기반: frozen vision encoder 활용, 일부 레이어만 학습
  • Cross attention 방식: Flamingo, BLIP 등 시각 특징과 LLM의 결합
  • Adaptation prompt: LLaMA-Adapter 등 프롬프트 임베딩 학습
  • Image tokenizer: 이미지 벡터 토크나이징

Instruction tuning 및 RLHF

  • 비전-텍스트 데이터셋 활용한 SFT 및 멀티스테이지 학습
  • Hallucination 감소를 위한 LLaVA 기반 RLHF, LoRA 파인튜닝 적용
  • 다양한 RLHF 변형 기법(PPO, DPO, mDPO 등)과 데이터셋 소개

연관 게시글