
2
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
Multimodal LLM 첫 삽 뜨기
이 게시물은 LLM 시대가 멀티모달 LLM 시대로 전환됨에 따라 관련 아키텍처, 튜닝 기법, 그리고 RLHF 적용 방법을 정리합니다.주요 아키텍처 분류
- Projection matrix 기반: frozen vision encoder 활용, 일부 레이어만 학습
- Cross attention 방식: Flamingo, BLIP 등 시각 특징과 LLM의 결합
- Adaptation prompt: LLaMA-Adapter 등 프롬프트 임베딩 학습
- Image tokenizer: 이미지 벡터 토크나이징
Instruction tuning 및 RLHF
- 비전-텍스트 데이터셋 활용한 SFT 및 멀티스테이지 학습
- Hallucination 감소를 위한 LLaVA 기반 RLHF, LoRA 파인튜닝 적용
- 다양한 RLHF 변형 기법(PPO, DPO, mDPO 등)과 데이터셋 소개