채터박스 TTS

2025-06-12

"Chatterbox TTS"는 Resemble AI의 첫 오픈 소스 TTS 모델로, MIT 라이선스를 받았으며 평가에서 ElevenLabs보다 높은 선호도를 보임.
감정 과장 제어 기능을 지원하는 최초의 오픈 소스 TTS 모델로 콘텐츠에 생동감을 더함.
최적화된 서비스는 초저지연을 제공하며, 특히 에이전트, 애플리케이션 및 인터랙티브 미디어에서 사용하기에 적합.
주요 특징으로는 State-of-the-art zeroshot TTS, 0.5B Llama 백본, 과장/강도 제어, 안정적인 추론 등이 있음.
일반 사용 시 기본 설정은 과장=0.5, cfg_weight=0.5, 빠른 말투의 경우 cfg_weight를 낮추는 것이 유익.
Expressive 혹은 극적인 스피치에서는 낮은 cfg_weight과 높은 과장 설정을 권장.
설치는 pip 또는 GitHub 소스에서 가능하고, Python 3.11 및 Debain 11 OS를 지원.
현재 지원 언어는 영어.
"Perth Watermarker"라는 오디오 워터마킹 기능을 포함하여 책임 있는 AI 사용을 장려.
워터마크 추출은 perth와 librosa 라이브러리를 이용하여 가능.
Discord 커뮤니티 참여를 장려하며, 모델을 악용하지 않도록 주의 필요.

3github.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.