Elevenlabs의 Eleven v3는 AI 음성이 자연스럽게 속삭이고, 웃고, 감정을 표현할 수 있도록 합니다.
- Elevenlabs는 새로운 텍스트-투-스피치 모델인 Eleven v3(알파)를 도입했습니다. 이는 70개 이상의 언어를 지원하고, 대화 기능과 오디오 태그를 통합하여 가장 표현력 있는 AI 음성을 제공하는 것을 목표로 하고 있습니다.
- Eleven v3는 감정 표현을 자연스럽게 처리하기 위해 설계되었습니다. 이전 버전보다 더 자연스러운 반응과 감정 전환을 제공하도록 만들어졌습니다.
- 새로운 시스템은 속삭임, 웃음, 한숨, 놀람 등을 표현할 수 있는 음성을 생성합니다. 사용자는 텍스트에 직접 내장된 오디오 태그를 사용해 표현력을 제어할 수 있습니다.
- 음성 생성이 가능한 다중 스피커 대화 기능은 현실적인 대화 흐름을 지원하며, 새로운 텍스트-투-대화 API는 사용자에게 각 발화자의 턴을 정의하는 구조화된 JSON 객체를 전송할 수 있게 합니다.
- Eleven v3는 영화, 오디오북 제작, 디지털 미디어 등에서 활용하기 위해 개발자와 미디어 제작자를 위한 실험 도구로 자리매김하고 있습니다.
- 하지만 독일어 테스트에서 일부 약점이 발견되었으나, 영어 음성은 훨씬 설득력이 있었습니다.
- Eleven v3는 현재 웹사이트에서 제공되며, 공공 API도 출시 예정입니다. 6월까지 앱 사용에 대해 80% 할인을 제공합니다.
- 실시간 애플리케이션에는 v3가 최적화되어 있지 않아, 여전히 v2.5 터보 또는 플래시 모델을 추천합니다. 실시간 버전은 개발 중입니다.
- 'Professional' 음성 복제 기능은 v3와 아직 최적화되지 않았습니다. 새로운 표현 기능을 사용하려는 프로젝트에는 인스턴트 음성 복제 또는 사전 제작된 음성을 사용할 것을 권장합니다.
3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.