이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 상담사처럼 발화하는 TTS 모델을 만들기 위한 연구 과정을 정리한 니다.
Channel-TTS 목표
상담사향 프로소디 일관성과 자연스러움 부족 개선
한·영 혼용, 날짜/시간, 주문·고유번호, URL·이메일 등 발화 처리 취약 보완
공개/합성 데이터를 활용한 SFT와 GRPO·DPO 등 post-training으로 상담사향 prosody 구현
학습 접근
영어 중심 오픈소스 TTS에 한국어 발화 학습을 위해 AIHUB 약 3~4만 시간으로 LLaSA-1B Continual Pre-training 수행
화자 컨트롤 한계 및 같은 텍스트에서 목소리 불일치 해결을 위해 16시간 동일 상담사 내부 데이터로 Mono-Speaker Finetuning 수행
상담사-유저 대화 오디오에서 상담사 채널만 speaker segmentation 후 Whisper-large-v3 전사 파이프라인으로 TTS 포맷 변환
보강 전략
발화 명료도 향상을 위해 CER 기반 Verifiable reward로 GRPO 학습 적용 후 baseline 대비 intelligibility 개선 확인
명료도만 올릴 때 단조로워지는 monotone 문제 발생하여 Iterative DPO로 국어책 읽는 듯한 발화를 완화 및 fallback 감소 목표
win/lose 선호쌍을 기반으로 약 200개 샘플 반복 DPO 수행하며 A/B 테스트에서 상담사향 성능 우위 확인
향후 방향
단순 낭독을 넘어 상황 맥락에 맞게 말하는 conversational TTS로 확장하며 GRPO는 명료도, DPO는 prosody를 지속 개선