20
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
AI가 만들어주는 나만의 목소리: SK플래닛 Voice Conversion 기술
이 게시물은 SK AI SUMMIT 2025에서 발표된 SK플래닛의 AI 기반 Voice Conversion 기술을 소개합니다.기술 개요
- Text2Speech, Speech2Text, Voice Conversion 등 AI 음성 합성 기술의 발전
- Speech Voice Conversion: 소스 음성 내용과 리듬 유지, 타겟 화자의 음색으로 변환
- Singing Voice Conversion: 노래 음성 변환에 피치 조정 및 믹싱 기술 추가
기술 세부 구성
- Feature Extractor, Semantic Encoder, Style Encoder를 통한 음성 특징 분리
- Diffusion Transformer Decoder(U-DiT)와 Vocoder(BigVGAN)로 고품질 음성 생성
- Pitch Extractor, Timbre Extractor, Length Regulator 등이 음성 품질과 자연스러움 향상에 기여
평가 및 한계점
- Speaker Cosine Similarity, F₀ Correlation 및 RMSE로 음성 품질 평가
- 실시간 처리 어려움, 고품질 데이터 부족, 음색 보존 문제 등 한계 존재
- 모델 경량화, 데이터 증강, 음색 정교화 등 대응 방안 모색

