ASR - 음성 전사 (Speech To Text)

Mistral Voxtral Transcribe 2 완전 이해 가이드

핵심 요약

Voxtral Transcribe 2는 배치용과 실시간용 두 가지 음성-텍스트 모델로, 높은 정확도와 매우 낮은 비용·지연 시간을 동시에 목표로 하는 전사 솔루션이다.
회의, 콜센터, 미디어, 컴플라이언스 등 다양한 음성 워크플로우를 자동화·지능화하기 위한 기능(화자 분리, 맥락 편향, 단어 단위 타임스탬프 등)을 제공한다.

Voxtral Transcribe 2 전체 그림

Voxtral Transcribe 2는 음성을 텍스트로 바꾸는 최신 모델 세트로, 크게 두 가지 제품으로 구성된다.
하나는 녹음 파일을 한 번에 처리하는 배치용 Voxtral Mini Transcribe V2이고, 다른 하나는 통화나 회의에 바로 붙여 쓰는 실시간용 Voxtral Realtime이다.

두 모델 모두 여러 언어를 지원하고 정확도 대비 가격이 매우 공격적인 편이라, "전사를 어디에나, 많이" 쓰고 싶은 기업을 주요 대상으로 한다.
사용자는 API, Mistral Studio의 오디오 놀이터, 혹은 오픈 가중치 모델을 통해 이 기능을 활용할 수 있다.

Voxtral Realtime: 초저지연 실시간 전사

Voxtral Realtime은 음성이 들어오는 즉시 텍스트로 바꿔야 하는 상황을 위해 설계된 스트리밍 모델이다.
일반적인 전사 모델이 일정 길이의 오디오 청크를 모아서 처리하는 것과 달리, 이 모델은 오디오 스트림을 실시간으로 받아 바로바로 전사를 생성한다.

지연 시간을 200ms 이하 수준으로 설정할 수 있어, 사람과 대화할 때 "답이 늦게 나와 어색한" 느낌을 크게 줄여준다.
실시간 상담원 보조, 음성 비서, 라이브 자막 등 반응 속도가 중요한 응용에 적합하다.

모델 크기는 약 4B 파라미터급으로, 클라우드뿐 아니라 엣지 장치에서도 돌릴 수 있는 효율성을 갖추었다.
이 덕분에 민감한 음성 데이터(예: 의료 상담, 금융 상담 등)를 로컬 환경에서 처리하는 프라이버시 우선 아키텍처에도 잘 맞는다.

또한 이 모델의 가중치는 Apache 2.0 라이선스로 공개되어 있어, Hugging Face에서 다운받아 자체 서비스에 통합할 수 있다.

Voxtral Mini Transcribe V2: 배치 전사의 가격·성능 최적화

Voxtral Mini Transcribe V2는 이미 녹음된 오디오 파일을 빠르고 저렴하게 텍스트로 바꾸는 데 초점이 맞춰진 배치 전사 모델이다.
FLEURS 벤치마크 기준 단어 오류율 약 4% 수준의 정확도를 달성하면서, 분당 요금은 약 $0.003로 책정되어 있다.

이는 경쟁 서비스들(예: GPT-4o mini 전사, Gemini 2.5 Flash, Assembly, Deepgram 등)과 비교했을 때, 정확도와 비용의 비율에서 매우 유리한 포지션을 목표로 한다.
성능뿐 아니라 처리 속도도 중요해서, 예를 들어 ElevenLabs의 Scribe v2보다 약 3배 빠르게 오디오를 처리하면서도 품질은 비슷하거나 더 좋고, 비용은 1/5 수준이라고 설명한다.

기업 입장에서는 "반복적으로 쌓이는 회의 녹음, 콜센터 녹취, 교육 영상" 등을 대량으로 전사할 때 비용 효율성이 핵심인데, Voxtral Mini Transcribe V2는 이 지점을 정면으로 겨냥한 모델이다.

13개 언어 지원과 다국어 성능

Voxtral Realtime과 Mini Transcribe V2 모두 13개 주요 언어를 지원한다.
포함된 언어는 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어다.

다국어 모델의 진짜 가치는 "영어만 잘하는 모델"을 넘어, 여러 언어에서 안정적인 정확도를 내는 것이다.

FLEURS 다국어 전사 성능 그래프 (언어별 단어 오류율)

FLEURS 벤치마크 기준으로 여러 언어에서 낮은 단어 오류율을 보이며, 특히 비영어권 언어에서 경쟁 모델들보다 우수한 성능을 목표로 한다.
이는 글로벌 서비스를 운영하는 기업이나, 여러 언어가 섞인 환경(예: 다국적 회의, 다언어 콜센터)에서 중요한 장점이 된다.

화자 분리: "누가 무엇을 말했는가"까지 기록

회의나 상담 전사를 활용할 때, 단순히 "무슨 말이 나왔는지"뿐 아니라 "누가 말했는지"가 중요하다.
Voxtral Mini Transcribe V2는 화자 다이어리제이션 기능을 제공해, 발화자 단위로 구분된 전사를 생성할 수 있다.

이 기능은 각 발화에 화자 레이블과 시간 구간(시작·종료 시각)을 붙여준다.
예를 들어 세일즈 콜에서 "판매 담당 vs 고객"의 발화를 구분하면, 영업 스크립트 준수 여부나 질문 유형 분석, 고객 반응 분석 등에 활용할 수 있다.

다만 여러 사람이 동시에 말할 때는 한 사람 중심으로 전사되는 경향이 있어, 완벽한 중첩 발화 처리에는 한계가 있을 수 있음을 전제해야 한다.
그럼에도 대부분의 회의·통화 환경에서는 큰 도움이 되는 기능이다.

맥락 편향: 전사 품질을 끌어올리는 사용자 힌트

맥락 편향(Context biasing)은 모델에게 "이런 단어들이 나올 가능성이 크다"고 미리 알려주는 기능이다.
사용자는 최대 100개 정도의 단어·구를 힌트로 제공할 수 있으며, 특히 이름, 회사명, 제품명, 전문 용어처럼 일반 모델이 틀리기 쉬운 단어를 보완하는 데 유용하다.

예를 들어 "Mistral", "Voxtral", "Kubernetes", "PostgreSQL" 같은 고유명사를 리스트로 넘겨주면, 모델은 이 단어들이 들렸을 때 맞춤법을 맞게 쓰려는 경향을 강화한다.
콜센터에서 고객사·상품명을 정확히 남기거나, 기술 회의에서 라이브러리 이름을 정확히 기록해야 할 때 큰 차이를 만든다.

이 기능은 현재 영어에 최적화되어 있으며, 다른 언어는 아직 실험적인 수준이라고 명시된다.
따라서 한국어나 다국어 환경에서 사용할 때는 직접 테스트하며 효과를 검증하는 것이 좋다.

단어 단위 타임스탬프와 긴 오디오 처리

Voxtral Mini Transcribe V2는 문장 단위가 아닌, 단어 단위의 시작·끝 타임스탬프를 생성할 수 있다.
이는 자막 제작, 특정 단어가 등장하는 지점 검색, 텍스트와 오디오·영상의 정밀 싱크 맞추기에 매우 유용하다.

예를 들어 교육 영상에서 "KPI"라는 단어가 등장하는 부분만 모아 보고 싶다면, 전사 결과의 단어 타임스탬프를 이용해 해당 구간만 바로 잘라낼 수 있다.
또한 긴 오디오 파일도 한 번에 처리할 수 있도록 최대 약 3시간 길이까지 한 요청으로 전사가 가능하도록 설계되어 있다.

이 두 가지 기능을 결합하면, 긴 회의·강의·세미나를 한 번에 전사하고, 필요할 때 특정 주제나 키워드가 나온 시간대만 빠르게 찾아가는 워크플로우를 만들 수 있다.

소음 환경 대응과 실전 활용성

현실 세계의 오디오 데이터는 항상 깨끗하지 않다.
공장, 콜센터, 길거리, 현장 인터뷰 등에서는 배경 소음이 필수적으로 섞이며, 전사 품질에 큰 영향을 미친다.

Voxtral Mini Transcribe V2는 이러한 소음 환경에서도 정확도를 유지하도록 학습되었다고 소개한다.
이는 "스튜디오급 녹음"이 아니라 "현실 세계 오디오"를 주로 다루는 기업에게 특히 중요하다.

예를 들어 현장 기술자의 작업 보고 음성, 야외 촬영 인터뷰, 고객센터의 다자간 통화 등에서 소음에 덜 흔들리는 전사 품질은 이후 분석·검색·요약 파이프라인 전체의 품질을 좌우한다.

대표 활용 사례: 회의, 에이전트, 콜센터, 미디어, 컴플라이언스

Voxtral Transcribe 2는 단순 전사 API가 아니라 "음성 워크플로우 엔진"에 가깝게 설계되어 있다.
대표적인 활용 영역은 다음과 같이 정리할 수 있다.

회의 인텔리전스에서는 다국어 회의 녹음을 화자별로 전사하여, "누가 무엇을 말했는지"가 명확한 회의록을 자동으로 만든다.
이 전사 결과를 다시 요약·액션 아이템 추출 모델과 결합하면, 자동 회의 비서에 가까운 시스템을 구성할 수 있다.

음성 에이전트·가상 비서에서는 Realtime을 LLM, TTS 파이프라인과 연결해, 사람과 자연스럽게 주고받는 대화형 인터페이스를 구현한다.
콜센터 자동화에서는 실시간 전사를 바탕으로 상담 중에 감정 분석, 추천 답변 제안, CRM 자동 작성 등이 가능해진다.

미디어·방송 분야에서는 라이브 자막 생성, 다국어 자막 제작, 콘텐츠 검색용 인덱싱 등에 활용할 수 있다.
컴플라이언스·문서화 영역에서는 규제 준수를 위해 통화를 기록하고, 화자·타임스탬프가 포함된 전사를 감사·감독 용도로 저장할 수 있다.

이러한 다양한 활용을 위해, 두 모델 모두 온프레미스나 프라이빗 클라우드 등에서 GDPR, HIPAA 요구사항을 충족하는 방식으로 배포 가능하도록 설계되었다.

가격과 접근 방식

Voxtral Mini Transcribe V2는 API 기준 분당 약 $0.003의 요금으로 제공된다.
이는 대규모 오디오 자산을 가진 기업이 "모든 음성을 데이터 자산화"하려 할 때 매우 중요한 요소다.

Voxtral Realtime은 API 기준 분당 약 $0.006의 비용으로, 더 높은 기술 요구(스트리밍, 지연시간 최적화)를 반영한 가격이다.
대신 실시간 상호작용이 필요한 애플리케이션에서는 이 비용이 사용자 경험 개선 효과로 충분히 상쇄될 수 있다.

두 모델 모두 Mistral Studio의 오디오 놀이터에서 바로 테스트할 수 있다.
이곳에서는 여러 개의 오디오 파일(.mp3, .wav, .m4a, .flac, .ogg)을 업로드하고, 화자 분리 여부, 타임스탬프 단위, 맥락 편향 단어를 직접 조정해가 중요한# Mistral Voxtral Transcribe 2# Mistral Voxtral Transcribe 2 경우에는 Mini Transcribe V2를 활용하는 식으로 역할을 분리하면 된다.
장기적으로는 이렇게 축적된 전사 데이터 위에 요약, 검색, 추천, 분석 모델을 쌓아 올리면서, 음성 중심의 업무 전체를 데이터 기반으로 재설계하는 전략을 고려할 만하다.

출처 및 참고 : 복스트랄은 음속으로 전사합니다. | 미스트랄 AI

댓글

로그인하고 댓글을 남겨보세요
공유
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기