메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략
4
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 메신저용 온디바이스 초저지연 비자기회귀 캡션 생성 전략을 다룬 글입니다.

문제 정의

  • 자기회귀 디코딩으로 모바일에서 수초 단위 지연 발생, 수백 ms 목표

핵심 접근

  • 비자기회귀 디코더(학습 가능 쿼리 토큰 + Q-CTC)로 병렬 디코딩해 응답 시간 200~400ms 확보
  • 캡션 재생성으로 데이터 스타일을 '짧고 일반적'으로 통일해 노이즈 제거
  • 다단계 지식 증류(자기회귀 교사 → 비자기회귀 학생 → 학생을 교사로 재학습) 및 GPT 기반 미수락 샘플 교정으로 품질 향상

성과

  • 모델 크기 227MB→172MB, 지연 5초 이상→200~400ms, 수락 비율 0.21→0.89로 개선

연관 게시글