VibeVoice: 최전선의 오픈 소스 텍스트 음성 변환 모델

2025-09-03

기사 제목은 "VibeVoice: 최전선 오픈소스 텍스트-음성 변환 모델"입니다.
VibeVoice는 텍스트로부터 팟캐스트와 같은 표현력 있는 장편, 다중 화자 대화 오디오를 생성하도록 설계된 새로운 프레임워크입니다.
전통적인 텍스트-음성 변환(TTS) 시스템의 주요 문제인 확장성, 화자 일관성, 자연스러운 순서 전환의 문제를 해결합니다.
VibeVoice의 핵심 혁신은 7.5Hz의 초저속 프레임 속도로 작동하는 지속적인 음성 토크나이저(음향 및 언어)를 사용하는 것입니다.
이는 오디오 충실도를 효율적으로 유지하면서 긴 시퀀스를 처리하기 위한 계산 효율성을 크게 향상시킵니다.
VibeVoice는 텍스트의 맥락과 대화 흐름을 이해하기 위해 대규모 언어 모델을 활용하고, 높은 충실도의 음향 디테일을 생성하기 위한 확산 헤드를 사용합니다.
이 모델은 최대 4명의 화자로 최대 90분 길이의 음성을 합성할 수 있으며, 이는 많은 이전 모델의 1-2 화자 제한을 초과합니다.

3microsoft.github.io링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.