
서버 없이도 가능하다! 온디바이스 음성인식 기술의 비밀
1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
서버 없이도 가능한 온디바이스 음성인식 기술
이 게시물은 에이닷 통화 요약 서비스에 도입된 온디바이스 음성인식 기술의 원리와 개발 과정을 설명합니다.서버 기반 음성인식 한계
- 통화 녹음 파일 업로드로 인한 지연 시간 발생
- 대규모 GPU 연산 비용 부담
온디바이스 음성인식의 장점과 구조
- 음성 데이터를 기기 내에서 바로 처리하여 지연 시간 감소
- 텍스트 결과만 서버 전송으로 개인정보 보호 강화
- EPD, FSA, ASR 통합 SDK 개발로 간편한 적용
모델 구조와 최적화
- LAS 기반 인코더-디코더 모델 적용
- 트랜스포머, 컨포머, 브랜치포머, 강화된 브랜치포머 구조 실험 및 적용
- 양자화 및 Knowledge Distillation으로 경량화와 성능 유지
- 디코더 레이어 수 조정으로 속도 개선 및 성능 최소 저하 달성
개발 성과
- 서버향 모델과 거의 동일하거나 개선된 인식률 달성
- 모바일 환경에 적합한 14MB 미만 SDK 제공