Multimodal LLM 첫 삽 뜨기 - 데보션 | Velopers

Multimodal LLM 첫 삽 뜨기

2024년 11월 5일

11

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Multimodal LLM 첫 삽 뜨기

이 게시물은 LLM 시대가 멀티모달 LLM 시대로 전환됨에 따라 관련 아키텍처, 튜닝 기법, 그리고 RLHF 적용 방법을 정리합니다.

주요 아키텍처 분류

Projection matrix 기반: frozen vision encoder 활용, 일부 레이어만 학습
Cross attention 방식: Flamingo, BLIP 등 시각 특징과 LLM의 결합
Adaptation prompt: LLaMA-Adapter 등 프롬프트 임베딩 학습
Image tokenizer: 이미지 벡터 토크나이징

Instruction tuning 및 RLHF

비전-텍스트 데이터셋 활용한 SFT 및 멀티스테이지 학습
Hallucination 감소를 위한 LLaVA 기반 RLHF, LoRA 파인튜닝 적용
다양한 RLHF 변형 기법(PPO, DPO, mDPO 등)과 데이터셋 소개

연관 게시글

Multimodal LLM을 직접 학습시켜 보자!

Multimodal LLM을 직접 학습시켜 보자!

데보션

데보션 • 2024년 11월 28일

LLM Knowledge Distillation 훑어보기 - part 2

LLM Knowledge Distillation 훑어보기 - part 2

데보션

데보션 • 2025년 4월 14일

LLM Knowledge Distillation 훑어보기 - part 1

LLM Knowledge Distillation 훑어보기 - part 1

데보션

데보션 • 2025년 3월 10일