AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)
20
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

AI가 만들어주는 나만의 목소리: SK플래닛 Voice Conversion 기술

이 게시물은 SK AI SUMMIT 2025에서 발표된 SK플래닛의 AI 기반 Voice Conversion 기술을 소개합니다.

기술 개요

  • Text2Speech, Speech2Text, Voice Conversion 등 AI 음성 합성 기술의 발전
  • Speech Voice Conversion: 소스 음성 내용과 리듬 유지, 타겟 화자의 음색으로 변환
  • Singing Voice Conversion: 노래 음성 변환에 피치 조정 및 믹싱 기술 추가

기술 세부 구성

  • Feature Extractor, Semantic Encoder, Style Encoder를 통한 음성 특징 분리
  • Diffusion Transformer Decoder(U-DiT)와 Vocoder(BigVGAN)로 고품질 음성 생성
  • Pitch Extractor, Timbre Extractor, Length Regulator 등이 음성 품질과 자연스러움 향상에 기여

평가 및 한계점

  • Speaker Cosine Similarity, F₀ Correlation 및 RMSE로 음성 품질 평가
  • 실시간 처리 어려움, 고품질 데이터 부족, 음색 보존 문제 등 한계 존재
  • 모델 경량화, 데이터 증강, 음색 정교화 등 대응 방안 모색

연관 게시글