채터박스 TTS
- "Chatterbox TTS"는 Resemble AI의 첫 오픈 소스 TTS 모델로, MIT 라이선스를 받았으며 평가에서 ElevenLabs보다 높은 선호도를 보임.
- 감정 과장 제어 기능을 지원하는 최초의 오픈 소스 TTS 모델로 콘텐츠에 생동감을 더함.
- 최적화된 서비스는 초저지연을 제공하며, 특히 에이전트, 애플리케이션 및 인터랙티브 미디어에서 사용하기에 적합.
- 주요 특징으로는 State-of-the-art zeroshot TTS, 0.5B Llama 백본, 과장/강도 제어, 안정적인 추론 등이 있음.
- 일반 사용 시 기본 설정은 과장=0.5, cfg_weight=0.5, 빠른 말투의 경우 cfg_weight를 낮추는 것이 유익.
- Expressive 혹은 극적인 스피치에서는 낮은 cfg_weight과 높은 과장 설정을 권장.
- 설치는 pip 또는 GitHub 소스에서 가능하고, Python 3.11 및 Debain 11 OS를 지원.
- 현재 지원 언어는 영어.
- "Perth Watermarker"라는 오디오 워터마킹 기능을 포함하여 책임 있는 AI 사용을 장려.
- 워터마크 추출은 perth와 librosa 라이브러리를 이용하여 가능.
- Discord 커뮤니티 참여를 장려하며, 모델을 악용하지 않도록 주의 필요.
3github.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.