Gemma 3n 모델로 음성과 이미지도 입력해보자 - 데보션 | Velopers

Gemma 3n 모델로 음성과 이미지도 입력해보자

2025년 7월 16일

77

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Gemma 3n 멀티모달 온디바이스 모델 소개

이 게시물은 Gemma 3n 모델의 주요 특징과 실행 방법을 설명합니다.

모델 특징

텍스트, 이미지, 오디오 등 멀티모달 입력 지원
인터넷 연결 없이 온디바이스에서 민감정보 보호 및 고성능 제공
파라미터 최적화로 5B, 8B 모델을 2B, 4B 수준 메모리로 실행
MatFormer 아키텍처와 KV 캐시 공유 기술 적용

실행 예시 및 활용

Macbook Pro M3 환경에서 pytorch, transformers, timm 라이브러리 사용
오디오 텍스트 변환 및 이미지 제목 생성 시연
오프라인 환경에서 다양한 데이터 기반 작업 가능

활용 가능성

이미지 질문 답변, 물체 인식, 비디오 분석 등 다양한 멀티모달 작업에 적용할 수 있습니다.

연관 게시글

안드로이드에서 On-Device로 Gemma 1 ＆ 2 실행하기

안드로이드에서 On-Device로 Gemma 1 ＆ 2 실행하기

데보션

데보션 • 2024년 9월 26일

안드로이드에서 Gemma2 파인튜닝 모델 실행하기

안드로이드에서 Gemma2 파인튜닝 모델 실행하기

데보션

데보션 • 2024년 11월 11일

Gemma 모델과 프롬프트를 활용한 On-Device AI: 에이닷 오토 차량제어 프로토타입

Gemma 모델과 프롬프트를 활용한 On-Device AI: 에이닷 오토 차량제어 프로토타입

데보션

데보션 • 2025년 4월 4일