메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략

AI

메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략

라인2026년 3월 6일

두줄요약

모바일 메신저용 이미지 캡션 생성을 위해 비자기회귀 디코딩과 지식 증류를 적용했습니다. 캡션 재생성과 다단계 정제로 200~400ms 지연과 실사용 가능한 품질을 달성했습니다.

핵심 내용

메신저용 온디바이스 이미지 캡션 생성을 위해 자기회귀 디코딩 대신 비자기회귀 디코더를 적용
수락 비율 기준으로 품질을 재정의하고, 캡션 재생성·다단계 지식 증류로 실사용 수준까지 개선
최종적으로 172MB 모델로 200~400ms 지연, 수락 비율 0.89 달성

구조와 흐름

모바일에서 자기회귀 캡션 생성이 수초 지연을 유발하는 문제 정리
학습 가능 쿼리 토큰과 Q-CTC 손실로 병렬 예측 구조 구성
평가 지표를 CIDEr/CLIPScore에서 LLM 기반 accept/non-accept로 전환

해결 방법

Phi-3.5-vision-instruct로 1,300만 건 캡션을 짧고 일반적인 스타일로 재생성
자기회귀 교사 모델과 비자기회귀 학생 모델을 거치는 1·2단계 지식 증류 수행
미수락 캡션을 GPT-4o mini로 정제해 품질 루프 보강

적용해볼 점

모바일 온디바이스 기능은 속도와 품질을 함께 보는 실사용 지표 설계가 중요
작은 모델에는 데이터 스타일과 난이도를 맞춘 학습 데이터 정제가 효과적
지연이 큰 생성 작업은 디코딩 방식 자체를 바꾸는 접근이 유효

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...