메인 콘텐츠로 건너뛰기
page thumbnail

Omnilingual ASR 종합 지식 노트

wislan
wislan
조회수 60
요약

개요

Omnilingual ASR는 Meta의 FAIR 팀이 공개한 대규모 자동 음성 인식(ASR) 모델군으로, 1,600개 이상의 언어에서 최첨단 수준의 성능을 목표로 설계되었으며 특히 그동안 AI가 다루지 못했던 500개 이상의 저자원 언어까지 커버한다는 점에서 의미가 크다12. 핵심은 7B 파라미터로 확장된 self-supervised 음성 인코더와 두 가지 디코더 변형(CTC, LLM-영감 트랜스포머)을 결합해 저자원·미지원 언어로의 일반화와 확장을 동시에 달성했다는 것이다12.

Generated Image

이 프로젝트는 모델뿐 아니라 데이터셋과 도구를 함께 공개했다. 대표적으로 350개 언더서브드(저자원) 언어의 전사 음성을 모은 Omnilingual ASR Corpus와 다양한 크기의 Omnilingual wav2vec 2.0 인코더가 제공되며, 모두 연구자·커뮤니티가 자유롭게 활용할 수 있도록 오픈 소스로 배포된다13. 이런 접근은 언어 기술의 접근성을 넓히고, 커뮤니티 주도의 확장을 통해 실제 사용자 집단이 직접 자신들의 언어를 디지털 환경에 연결할 수 있게 한다12.

정의와 배경

자동 음성 인식은 말소리를 텍스트로 변환해 검색과 분석을 가능하게 하는 기술로, 그동안 인터넷 상의 데이터가 풍부한 소수의 고자원 언어에서 비약적으로 발전해 왔다12. 그러나 세계에 존재하는 7,000개 이상의 언어 중 다수는 데이터 부족과 비용 문제로 지원이 미흡했고, 이는 디지털 격차를 심화시켰다2. Omnilingual ASR는 이런 한계를 해결하려는 시도로, 광범위한 커버리지와 저자원 조건에서의 일반화를 목표로 설계됐다2.

특히 기존 시스템이 출시 시점에 포함된 언어만을 대상으로 하거나, 새로운 언어 지원을 위해 전문가 주도의 파인튜닝을 요구하는 데 비해, Omnilingual ASR는 커뮤니티가 소수의 예시만으로도 미지원 언어를 모델에 “문맥 예시”로 소개할 수 있는 확장성을 제공한다12. 이는 LLM에서 발전된 인컨텍스트 러닝 개념을 ASR로 가져온 결과다12.

아키텍처와 모델 구성

Omnilingual ASR의 핵심은 대규모 자기지도 학습으로 확장된 음성 인코더와, 두 가지 디코더 변형의 조합이다. 먼저 wav2vec 2.0 계열의 인코더를 7B 파라미터 규모로 확장해 비전사(raw) 음성에서 다언어 의미 표현을 풍부하게 학습한다12. 그런 다음 문자 토큰으로 매핑하는 디코더를 두 가지로 제공한다. 하나는 연결주의 시계열 분류(CTC) 기반의 전통적 목적을 이용하고, 다른 하나는 트랜스포머 디코더를 채택해 LLM에서 보인 문맥 처리 능력을 ASR에 도입한다12.

이 중 LLM-ASR로 명명된 트랜스포머 디코더 접근은 특히 롱테일 언어(저자원·드물게 등장하는 언어)에서 성능을 크게 향상시키며, 7B 모델은 광범위한 언어에서 최신 수준의 인식 품질을 달성했다1. 또한 모델군은 모바일·엣지 환경을 위한 300M 경량 버전부터 최대 정확도를 위한 7B 대형 버전까지 폭넓은 선택지를 제공하며, 각기 다른 응용과 계산 제약에 맞춘 활용이 가능하다12.

Omnilingual ASR 아키텍처 및 성능 개요 그래프

이미지 출처: Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages

위 도식은 대규모 인코더와 디코더 변형의 결합으로 성능과 확장성을 동시에 추구하는 설계를 요약한다. 특히 LLM-ASR 접근이 장문·복잡한 발화에서도 강건한 일반화 성능을 보이는 것이 핵심이다12.

언어 범위와 성능

Omnilingual ASR는 1,600개 이상의 언어에서 자동 평가 기준으로 기존 시스템 대비 유의미한 향상을 보였으며, 7B LLM-ASR 모델은 전체 언어 중 78%에서 문자 오류율(CER) 10 이하를 달성했다는 보고가 있다1. 이러한 수치는 저자원 언어에서의 극단적 조건에서도 개선폭이 크고, 학습 중 접한 적 없는 신규 언어로의 일반화 능력이 강함을 시사한다2.

여기서 CER은 단어 오류율(WER)과 다르게 문자 단위 정밀도를 반영한다. CER 10%는 단어 단위 오차율보다 낙관적으로 보일 수 있으나, 언어별 사전과 형태소 분석이 결합되면 실사용 품질을 높일 수 있다는 점도 함께 고려된다1. 공개 데모에서는 저자원 언어 중 CER 10% 이하의 언어를 대상으로 제한적 실험을 제공해 사용자들이 성능을 체감할 수 있도록 했다1.

언어별 CER 분포(낮을수록 좋음)

이미지 출처: Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages

그래프는 커버리지 확장과 함께 성능 분포가 폭넓게 개선되었음을 보여준다. 다만 실제 사용 품질은 녹음 환경, 발화 길이, 억양과 성조, 방언 변이 등 다양한 요인에 의해 좌우될 수 있어 현장 검증과 사용자 피드백이 중요하다14.

확장성: Bring Your Own Language

Omnilingual ASR는 미지원 언어 화자가 소수의 오디오-텍스트 페어만 제공해도 사용 가능한 수준의 전사 품질을 얻을 수 있는 “인컨텍스트 확장”을 제공한다12. 이는 대규모 음성 표현과 LLM-영감 디코더의 결합으로 가능해졌으며, 고가의 컴퓨트나 대량 라벨링 없이 커뮤니티 주도의 참여를 촉진한다12.

물론 제로샷 또는 수샷 설정에서의 품질은 완전 학습된 언어에 견줄 정도는 아니며, 데이터 품질과 다양성, 예시의 대표성에 따라 성능이 달라질 수 있다12. 그럼에도 이 방식은 새로운 언어를 빠르게 디지털 영역으로 끌어올리는 실용적인 경로로 평가된다1.

BYO Language: 소수 예시로 신규 언어 도입

이미지 출처: Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages

이 도식은 신규 언어를 시스템에 도입하는 프로세스를 직관적으로 보여준다. 몇 개의 대표 샘플이 적절한 가이드 역할을 제공하면, 디코더는 인컨텍스트 신호를 활용해 문자 시퀀스를 합리적으로 추정한다12.

데이터셋: Omnilingual ASR Corpus

Omnilingual ASR Corpus는 350개 언더서브드 언어의 전사 음성 데이터를 모은 대규모 컬렉션으로, 공개 자원과 커뮤니티 협업(보상 기반 현지 파트너십)을 통해 수집·정제되었다23. Hugging Face에서 파케(Parquet) 형식으로 제공되며, 학습·개발·테스트로 분할되어 있고 다양한 언어의 스크립트(라틴, 아랍, 데바나가리 등)와 메타데이터를 포함한다3.

데이터셋 규모는 27만 행 이상의 기본 서브셋을 기준으로 하며 언어별 수천 샘플이 배치된 경우도 있다. 예시 항목에는 원문 텍스트(raw_text), 프롬프트(prompt), 오디오(audio), 지속시간(duration), ISO 코드와 글로토코드 등 식별 정보가 포함되어 연구·개발에 바로 활용 가능하다3. 라이선스는 CC-BY 4.0으로, 적절한 출처 표기가 필요하다3.

오픈소스와 라이선스

모델과 코드, 훈련 자산은 Apache 2.0 라이선스로 공개되어 상업적·연구적 활용에 유연하며, 데이터는 CC-BY로 제공된다1. 구현은 FAIR의 오픈소스 스택(fairseq2)을 바탕으로 하며, GitHub 저장소를 통해 모델군과 도구, 데모를 확인할 수 있다12. 이러한 개방성은 커뮤니티 참여를 확대하고 저자원 언어 연구의 장벽을 낮춘다는 사회적 의미를 갖는다2.

활용 사례와 한계

실용적 활용은 광범위하다. 멀티언어 자막 생성, 교육용 접근성 향상, 지역 방송·행정 서비스의 다언어 지원 등에서 즉각적인 가치가 있을 수 있다12. 경량 모델은 엣지 디바이스 적용을 가능케 하며, 대형 모델은 복잡한 발화·잡음 환경에서 높은 정확도를 제공한다1.

한계로는 성조(톤) 언어, 클릭음 등 희소 음운을 가진 언어에서의 정밀도, 발화자·환경 변이에 따른 일반화, CER과 실제 이해 가능성 간의 차이 등 과제가 남아 있다. 커뮤니티 피드백과 현장 검증을 통해 데이터 보강, 사전·형태소 분석 결합, 방언·억양 다양성 반영 등을 지속적으로 개선해야 한다14. 공개 데모에서 사용자에 따라 인식 오류 경험이 보고되기도 했으며, 이는 녹음 품질·발화 길이·지원 범위와 연관될 수 있다4.

관련 논의

커뮤니티 반응은 대체로 고무적이지만, 데모의 언어 위기 등급 표시 오류 의혹 등 메타데이터 품질 문제도 제기되었다. 예컨대 스웨덴어·말라얄람어 등 일부 언어의 상태가 실제 언어학 자료와 상충한다는 지적이 있었고, 피드백 기능 오류가 보고되기도 했다4. 이는 모델 외부의 지식 베이스·UI 품질이 사용자 신뢰와 채택에 중요한 영향을 미친다는 점을 상기시킨다.

성능 측면에서 공개 벤치마크와 체감 성능 간의 간극을 지적하는 사례도 있다. 단문 녹음에서 오인식이 발생했다는 사용자 보고는, 실제 환경에서의 튜닝과 품질 관리(노이즈 억제, 마이크 품질, 전처리 등)의 중요성을 보여준다4. 전반적으로 오픈소스 공개는 빠른 개선 사이클과 투명한 검증을 가능하게 하며, 커뮤니티 협업이 품질 향상의 핵심 동력이 될 것으로 보인다123.

깃허브 주소

https://github.com/facebookresearch/omnilingual-asr

설치법

# using pip
pip install omnilingual-asr

# using uv
uv add omnilingual-asr

결론

Omnilingual ASR는 대규모 자기지도 인코더와 LLM-영감 디코더를 결합해 언어 커버리지와 저자원 일반화의 난제를 동시에 공략하는 시도다12. 모델군과 데이터셋을 함께 오픈소스로 제공함으로써, 커뮤니티가 직접 자신의 언어를 디지털화하고 응용 서비스를 구축할 수 있는 길을 넓혔다123. 향후 과제는 성조·희소 음운 처리, 방언 다양성, 메타데이터 신뢰성을 포함하며, 개방된 생태계 속에서 상호 검증과 참여를 통해 빠르게 보완될 가능성이 크다4.

참고

1Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages - https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/

2Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages | Research - AI at Meta - https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/

3facebook/omnilingual-asr-corpus · Datasets at Hugging Face - https://huggingface.co/datasets/facebook/omnilingual-asr-corpus

4Omnilingual ASR: Advancing automatic speech recognition for 1600 languages | Hacker News - https://news.ycombinator.com/item?id=45878826