ElevenLabs, 차세대 음성인식 모델 Scribe 출시

ElevenLabs의 새로운 음성인식 모델 Scribe 출시

음성생성 기술로 유명한 AI 스타트업 ElevenLabs가 독립적인 음성인식 모델 Scribe를 출시했습니다. 이번 출시는 1억 8천만 달러의 펀딩 라운드를 성공적으로 마친 후 이루어졌습니다. ElevenLabs는 이번 모델을 통해 보다 정확하고 다양한 언어를 지원하는 음성인식 서비스를 제공하려고 합니다.

Scribe의 주요 기능과 성능

Scribe 모델은 출시 시점에서 무려 99개 이상의 언어를 지원하며, 그 중 25개 이상의 언어에서는 오류율이 5% 미만으로 높은 정확성을 자랑합니다. 주요 지원 언어로는 영어(정확도 97%), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어 등이 있습니다. 또한 FLEURS 및 Common Voice 벤치마크 테스트에서 Google Gemini 2.0 Flash 및 Whisper Large V3를 능가하는 성능을 보였습니다.

Scribe의 혁신적 기능

Scribe 모델은 단순한 음성인식을 넘어, 단어 수준의 정확한 자막 타임스탬프 및 스마트 스피커 다이어라이제이션 기능을 제공합니다. 이를 통해 여러 명이 동시에 말하는 상황에서도 누가 말하는지 정확하게 구분할 수 있으며, 비언어적 이벤트(예: 웃음소리)도 자동으로 태그할 수 있습니다.

실시간 버전과 가격

현재 Scribe는 사전 녹음된 오디오 형식에서만 작동하지만, 곧 실시간 버전도 출시될 예정입니다. 서비스 요금은 시간당 0.40달러로 책정되어 있어 경쟁력 있는 가격을 자랑합니다. 앞으로 낮은 지연 시간의 실시간 버전이 출시되면, 회의록 작성이나 음성 메모 기록 등 실시간 애플리케이션에서도 유용하게 사용될 수 있을 것입니다.

결론 및 미래 전망

ElevenLabs의 Scribe 모델은 현재 시장에서 가장 높은 정확도를 자랑하며, 다국어 지원을 통해 글로벌 시장에서도 큰 호응을 얻을 것으로 예상됩니다. 특히 음성인식 기술이 상대적으로 덜 발달한 언어에서도 높은 성능을 보임으로써, 다양한 산업 분야에서 유용하게 사용될 것입니다. Scribe의 출시로 인해 음성인식 기술의 새로운 표준이 세워질 것으로 기대됩니다.