Elevenlabs의 Eleven v3는 AI 음성이 자연스럽게 속삭이고, 웃고, 감정을 표현할 수 있도록 합니다.

2025-06-07

Elevenlabs는 새로운 텍스트-투-스피치 모델인 Eleven v3(알파)를 도입했습니다. 이는 70개 이상의 언어를 지원하고, 대화 기능과 오디오 태그를 통합하여 가장 표현력 있는 AI 음성을 제공하는 것을 목표로 하고 있습니다.
Eleven v3는 감정 표현을 자연스럽게 처리하기 위해 설계되었습니다. 이전 버전보다 더 자연스러운 반응과 감정 전환을 제공하도록 만들어졌습니다.
새로운 시스템은 속삭임, 웃음, 한숨, 놀람 등을 표현할 수 있는 음성을 생성합니다. 사용자는 텍스트에 직접 내장된 오디오 태그를 사용해 표현력을 제어할 수 있습니다.
음성 생성이 가능한 다중 스피커 대화 기능은 현실적인 대화 흐름을 지원하며, 새로운 텍스트-투-대화 API는 사용자에게 각 발화자의 턴을 정의하는 구조화된 JSON 객체를 전송할 수 있게 합니다.
Eleven v3는 영화, 오디오북 제작, 디지털 미디어 등에서 활용하기 위해 개발자와 미디어 제작자를 위한 실험 도구로 자리매김하고 있습니다.
하지만 독일어 테스트에서 일부 약점이 발견되었으나, 영어 음성은 훨씬 설득력이 있었습니다.
Eleven v3는 현재 웹사이트에서 제공되며, 공공 API도 출시 예정입니다. 6월까지 앱 사용에 대해 80% 할인을 제공합니다.
실시간 애플리케이션에는 v3가 최적화되어 있지 않아, 여전히 v2.5 터보 또는 플래시 모델을 추천합니다. 실시간 버전은 개발 중입니다.
'Professional' 음성 복제 기능은 v3와 아직 최적화되지 않았습니다. 새로운 표현 기능을 사용하려는 프로젝트에는 인스턴트 음성 복제 또는 사전 제작된 음성을 사용할 것을 권장합니다.

3the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기