ElevenLabs Scribe 음성 인식 모델 기능 및 성능

서론

AI 음성 인식 분야에서 주목받고 있는 ElevenLabs의 Scribe 모델이 높은 정확도로 화제를 모으고 있습니다. Scribe 모델은 99개 언어를 지원하며, 특히 영어에서는 96.7%의 정확도를 자랑합니다. 이번 블로그 포스트에서는 Scribe 모델의 주요 기능과 성능을 깊이 있게 알아보겠습니다.

Scribe 모델의 주요 특징

1. 뛰어난 정확도

Scribe 모델은 FLEURS 및 Common Voice 벤치마크 테스트에서 Google, OpenAI, Deepgram 등 주요 경쟁 모델을 능가하는 성능을 보여줍니다. 영어에서는 96.7%, 이탈리아어에서는 98.7%의 단어 오류율(WER)을 기록하며, 높은 정확도를 자랑합니다.

2. 다중 언어 지원

Scribe는 총 99개의 언어를 지원합니다. 일반적으로 서비스가 부족한 언어인 세르비아어, 광둥어, 말라얄람어에서도 기존 모델 대비 낮은 오류율을 기록합니다. 이를 통해 다양한 언어를 사용하는 사용자들에게도 높은 품질의 음성 인식 서비스를 제공합니다.

3. 고급 기능

화자 다이어리제이션: 최대 32명의 화자를 구분하여 개별적으로 식별할 수 있습니다.
단어 수준의 타임스탬프: 텍스트에서 각 단어가 언제 언급되었는지를 정확하게 표시합니다.
비언어적 요소 인식: 웃음, 음악, 배경 소음 등 비언어적 요소도 인식하여 보다 정교한 전사 결과를 제공합니다.

가격 및 접근성

Scribe는 시간당 0.40달러의 가격으로 제공되며, 첫 6주 동안 50% 할인이 적용됩니다. 이러한 가격 정책은 고품질 음성 인식 서비스를 보다 많은 사용자들이 부담 없이 이용할 수 있도록 합니다. 또한, ElevenLabs의 웹사이트나 API를 통해 쉽게 접근할 수 있으며, 실시간 응용 프로그램을 위한 저지연 버전도 곧 출시될 예정입니다.

경쟁 모델과의 비교

Scribe 모델은 Google의 Gemini 2.0 Flash, OpenAI의 Whisper v3, Deepgram Nova-3 등 주요 경쟁 모델을 벤치마크 테스트에서 능가합니다. 특히, 다양한 언어 지원과 다중 기능 측면에서 높은 평가를 받고 있습니다.

결론

ElevenLabs의 Scribe 모델은 뛰어난 정확도와 다양한 고급 기능으로 AI 음성 인식 분야에서 독보적인 위치를 차지하고 있습니다. 경쟁력 있는 가격과 훌륭한 성능으로 많은 사용자들에게 새롭고 향상된 음성 인식 서비스를 제공할 것입니다.