서버 없이도 가능하다! 온디바이스 음성인식 기술의 비밀

서버 없이도 가능하다! 온디바이스 음성인식 기술의 비밀

1
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

서버 없이도 가능한 온디바이스 음성인식 기술

이 게시물은 에이닷 통화 요약 서비스에 도입된 온디바이스 음성인식 기술의 원리와 개발 과정을 설명합니다.

서버 기반 음성인식 한계

  • 통화 녹음 파일 업로드로 인한 지연 시간 발생
  • 대규모 GPU 연산 비용 부담

온디바이스 음성인식의 장점과 구조

  • 음성 데이터를 기기 내에서 바로 처리하여 지연 시간 감소
  • 텍스트 결과만 서버 전송으로 개인정보 보호 강화
  • EPD, FSA, ASR 통합 SDK 개발로 간편한 적용

모델 구조와 최적화

  • LAS 기반 인코더-디코더 모델 적용
  • 트랜스포머, 컨포머, 브랜치포머, 강화된 브랜치포머 구조 실험 및 적용
  • 양자화 및 Knowledge Distillation으로 경량화와 성능 유지
  • 디코더 레이어 수 조정으로 속도 개선 및 성능 최소 저하 달성

개발 성과

  • 서버향 모델과 거의 동일하거나 개선된 인식률 달성
  • 모바일 환경에 적합한 14MB 미만 SDK 제공