상담사향 TTS 만들기

AI

상담사향 TTS 만들기

채널톡

채널톡2025년 10월 10일

두줄요약

상담사처럼 말하는 한국어 TTS를 만들기 위해 데이터 학습, 명료도 개선, 선호도 기반 후학습을 단계적으로 적용했습니다. GRPO와 DPO로 상담사향 프로소디와 화자 일관성을 높인 과정을 소개했습니다.

핵심 내용

상담사처럼 발화하는 한국어 TTS 모델을 만들기 위한 연구·개발 과정 정리
공개/합성 데이터 기반 continual pre-training, 내부 상담사 음성 기반 mono-speaker finetuning, GRPO와 DPO를 활용한 후학습 흐름 소개
명료도, 화자 일관성, 상담사향 프로소디를 동시에 개선하려는 시도와 그 결과 요약

구조와 흐름

한국어 발화 능력 확보를 위한 대규모 데이터 수집과 continual pre-training
동일 상담사 데이터로 speaker similarity와 음색 일관성 강화
CER 기반 GRPO로 발화 명료도 개선, DPO로 단조로움과 fallback 억제

선택 이유

상용 TTS의 상담사향 프로소디와 한국어 특수 표현 처리 한계 보완 필요
같은 화자가 일관되게 말해야 하는 전화 상담 서비스 요구 반영
상담 시나리오에 맞는 더 사람 같은 톤과 자연스러운 발화 지향

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...