Meta의 Omnilingual ASR은 1,600개의 언어로 음성 인식을 제공합니다.

  • Meta의 Fundamental AI Research (FAIR) 팀이 1,600개 이상의 언어를 자동으로 인식하고 전사할 수 있는 음성 인식 시스템, Omnilingual ASR을 소개했습니다.

  • 기존의 음성 인식 도구는 주로 잘 지원되는 몇 백 개의 언어에 초점을 맞추고 있었으나, Omnilingual ASR은 이전까지 AI로 지원되지 않았던 500개의 언어를 포함하여 1,600개 언어를 지원합니다.

  • 이 모델의 정확도는 사용 가능한 학습 데이터에 따라 달라지며, Meta에 따르면 1,600개 언어 중 78%가 문자 오류율 10 이하를 기록했습니다. 특히 10시간 이상의 학습 오디오가 있는 언어의 경우, 95%가 이러한 수준에 도달하거나 그보다 더 나은 성능을 보였습니다.

  • Meta는 또한 350개의 저대표 언어로 작성된 대규모 음성 전사 데이터를 담은 Omnilingual ASR Corpus를 Creative Commons (CC-BY) 라이선스 하에 공개하여, 개발자와 연구자가 자신들의 필요에 맞춘 음성 인식 모델을 구축할 수 있도록 지원합니다.

  • "자신의 언어를 가져오기" 옵션을 통해 사용자들은 몇 개의 오디오-텍스트 샘플만 제공하여 새로운 언어를 추가할 수 있으며, 이에 따라 Omnilingual ASR은 이론적으로 5,400개 이상의 언어로 확장될 수 있습니다.

  • Omnilingual ASR은 Apache 2.0 라이선스에 따라 오픈 소스로 제공되어, 연구자 및 개발자가 자유롭게 사용하고, 수정하며, 상업적으로 이용할 수 있습니다.

  • 이 모델 군은 저전력 장치에 맞춘 3억 파라미터의 경량 버전부터 "최상급 정확도"를 목표로 하는 70억 파라미터의 대형 모델까지 다양합니다.

  • 모든 모델은 FAIR의 PyTorch 기반 fairseq2 프레임워크를 바탕으로 구축되었습니다.


5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약 한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기