NVIDIA 오픈 모델로 초저지연 음성 에이전트 직접 만들기

사람과 이야기하듯 자연스럽게 대화하는 음성 에이전트.
이제 거대 빅테크 API에 전적으로 의존하지 않고, NVIDIA 오픈 모델만으로도 꽤 수준 높은 시스템을 만들 수 있습니다.

이번 글에서는 NVIDIA가 공개한 세 가지 핵심 오픈 모델,
Nemotron Speech ASR, Nemotron 3 Nano LLM, Magpie TTS를 활용해
“말 → 이해 → 대답 → 다시 말”까지 이어지는 실시간 음성 에이전트를 어떻게 설계하고 구현할 수 있는지 정리해 보겠습니다.

글을 다 읽으면 다음을 감 잡을 수 있습니다.

왜 오픈 모델로 음성 에이전트를 만들려는 움직임이 커지는지
Nemotron Speech ASR, Nemotron 3 Nano, Magpie TTS 각각이 어떤 역할을 하는지
초저지연(수십 ms 단위) 구조를 어떻게 설계해야 하는지
실무에서 바로 활용할 수 있는 아키텍처와 개발 팁

오픈 모델로 만드는 음성 에이전트, 뭐가 달라지나?

지금까지 고급 음성 에이전트는 대부분 “클라우드 기반 상용 API”가 사실상 기본 옵션이었습니다.
정확도, 자연스러운 음성, 편의성 모두 좋았지만, 그만큼 한계도 분명했습니다.

대표적인 제약은 네 가지입니다.

첫째, 지연 시간입니다.
대표적인 오픈 ASR인 Whisper Large v3를 로컬로 돌리면 보통 600~800ms 정도가 걸립니다. 상용 STT 서비스도 대체로 200~400ms 사이에 머뭅니다¹.
대화하는 상황에서 0.5초~1초의 딜레이는 생각보다 크게 느껴집니다.

둘째, 커스터마이징 한계입니다.
상용 API는 파라미터 몇 개 조정하는 수준은 가능하지만,
모델 구조를 바꾸거나, 자체 데이터로 파인튜닝하거나, 특정 하드웨어에 맞춰 극도로 최적화하는 건 어렵습니다.

셋째, 데이터 거버넌스와 규제입니다.
금융, 의료, 공공 영역에서는 음성 데이터가 외부 서비스로 나가는 것 자체가 문제가 되기도 합니다.
이런 환경에서는 “온프레미스 + 오픈 모델” 조합이 거의 필수에 가깝습니다².

넷째, 관측 가능성과 일관성입니다.
서비스를 장기간 운영하려면, 어느 시점에 어떤 응답이 왜 나왔는지 추적할 수 있어야 합니다.
오픈 모델을 직접 호스팅하면, 모델 버전, 파라미터, 추론 로그까지 모두 손안에 넣고 관리할 수 있습니다.

이런 배경에서 NVIDIA가 Nemotron 계열 오픈 모델과 음성 에이전트 레퍼런스를 공개했습니다.
핵심은 다음과 같습니다.

Nemotron Speech ASR: 24ms 이하 응답 시간에 초점을 둔 스트리밍 음성 인식 모델¹
Nemotron 3 Nano LLM: 30억 파라미터급, 고효율 추론에 최적화된 LLM²
Magpie TTS: 초기 응답 딜레이를 3배 줄이는 하이브리드 스트리밍 텍스트-투-스피치 모델(프리뷰)¹

이 세 가지를 조합하면, 기존 상용 스택에 못지 않은, 경우에 따라서는 더 빠른 초저지연 음성-음성 에이전트를 구현할 수 있습니다.

Nemotron Speech ASR로 24ms급 스트리밍 음성 인식 만들기

음성 에이전트의 첫 관문은 “상대방이 무슨 말을 했는지” 정확하고 빠르게 알아오는 것입니다.
Nemotron Speech ASR은 여기서 완전히 게임 체인저처럼 등장합니다.

이 모델의 특성을 짚어 보면 설계 방향이 훨씬 명확해집니다.

24ms 이하 최종 전사, 왜 중요한가?

Nemotron Speech ASR은 스트리밍 환경에서 최종(transcript) 결과를 24ms 이내로 내놓는 것을 목표로 설계되었습니다¹.
이 수치는 단순히 “빠르다” 수준이 아니라, 구조 설계 자체가 다릅니다.

기존 ASR들과 비교해 보면 감이 더 옵니다.

Whisper Large v3: 600~800ms 단위 처리
상용 클라우드 STT: 보통 200~400ms 레이턴시¹
Nemotron Speech ASR: 24ms 이내 최종 전사

차이는 “배치 전사용인지, 실시간 대화용인지”에 가깝습니다.
전화 상담, 실시간 상담봇, 회의 비서 같이 “상대방 말이 끝나기도 전에 바로 반응해야 하는” 시나리오라면 이 미세한 차이가 UX 전체를 바꿉니다.

초저지연을 가능하게 하는 구조

Nemotron Speech ASR은 내부적으로 캐시를 적극 활용하는 FastConformer 계열 인코더와, 스트리밍에 맞게 설계된 디코더 구조를 사용합니다³.
중요한 포인트는 다음 세 가지입니다.

첫째, 스트리밍 파이프라인 전제 설계입니다.
NVIDIA 및 파트너 레퍼런스 구현에서는 보통 이런 순서의 서버 구성을 사용합니다¹.

WebSocket로 오디오 스트림 수신
일정 길이의 오디오를 축적하는 accumulator
멜 스펙트로그램 전처리
스트리밍 인코더 (캐시 활용)
그리디 디코더로 텍스트 생성
필요 시 WebSocket에서 바로 reset 신호로 컨텍스트 초기화

이렇게 하면 오디오가 들어오는 즉시, 최소 단위로 계속 결과를 흘려 보낼 수 있습니다.

둘째, 컨텍스트 윈도우 길이를 조절 가능하다는 점입니다.
Nemotron Speech ASR은 대표적으로 80ms, 160ms, 560ms, 1.2s 네 가지 설정을 제공합니다¹.
컨텍스트가 짧을수록 빠르고, 길수록 정확도가 올라갑니다.

예를 들어, 160ms 컨텍스트는 턴 감지와 잘 맞아 떨어져 실시간 대화용으로 좋은 균형을 보여줍니다.
80ms는 가능한 한 빨리 받아 적어야 하는 상황,
560ms 이상은 자막이나 기록 품질을 좀 더 신경 쓰는 상황에 어울립니다.

셋째, 정확도도 상용 모델급입니다.
표준 지표인 워드 에러율(WER)로 비교했을 때, Nemotron Speech ASR은 상용 STT 서비스와 비슷하거나 더 나은 수준을 보여주고, Whisper 같은 기존 오픈 모델보다는 확실히 우수한 성능을 기록합니다[^1,^3].

턴 감지(누가 언제 말이 끝났는가)를 어떻게 붙일까

실제 음성 에이전트에서 중요한 건 “문장 전체 전사”보다 사용자가 말을 멈췄는지 아닌지입니다.
이걸 턴 감지(turn detection)라고 부릅니다.

Nemotron Speech ASR의 초저지연 특성 덕분에, 전사와 턴 감지를 병렬로 돌리는 패턴이 잘 먹힙니다¹.

한쪽에서는 ASR이 계속 텍스트 스트림을 생성하고
다른 한쪽에서는 음량(energy), 침묵 구간, 언어적 단서(‘그러니까…’, ‘음…’) 등을 보고
“여기서 턴을 끊을지” 판단하는 로직을 돌립니다.

이렇게 하면, 사용자가 말이 끝난 순간에 거의 지연 없이 LLM 쪽으로 텍스트를 넘겨 다음 단계 처리를 시작할 수 있습니다.

Nemotron 3 Nano LLM으로 빠르고 가벼운 뇌 만들기

ASR이 “귀와 청각 신경”이라면, LLM은 말 그대로 에이전트의 “뇌”입니다.
여기서 NVIDIA가 제안하는 모델이 Nemotron 3 Nano입니다.

30억 파라미터, 하지만 생각보다 강력한 이유

Nemotron 3 Nano는 약 30억 개의 파라미터를 가진 LLM입니다².
숫자만 보면 요즘 흔한 70B, 100B 모델들에 비해 작은 편이지만, 음성 에이전트 용도에서는 오히려 장점이 됩니다.

추론 속도가 빠르고
GPU/메모리 자원 사용량이 적으며
온프레미스 혹은 엣지 환경에도 올리기 수월합니다.

NVIDIA는 Nemotron 3 Nano를 설계할 때,
Mixture-of-Experts(MoE)와 하이브리드 Mamba-Transformer 아키텍처,
그리고 최대 100만 토큰(1M) 컨텍스트 윈도우를 활용할 수 있도록 구성했습니다[^2,^6].
즉, 작지만, 긴 대화와 복잡한 컨텍스트를 다룰 수 있도록 튜닝된 모델인 셈입니다.

음성 에이전트에서 LLM에게 맡길 역할

Nemotron 3 Nano는 음성 에이전트에서 주로 다음 같은 일을 담당하게 됩니다.

사용자의 발화를 이해하고 요약
현재 대화 상태와 이력 관리
필요한 경우 툴 호출(예: 데이터베이스 조회, API 호출)
최종 답변 초안 생성
TTS로 넘기기 좋은 형태로 문장을 정리

NVIDIA의 RAG + 보이스 에이전트 레퍼런스에서는
Nemotron 3 Nano를 메인 reasoning 모델로 두고,
필요하다면 멀티모달 임베딩/리랭커 모델과 결합해 복잡한 질의응답을 처리하도록 구성하고 있습니다[^2,^6].

속도 vs. 지능, 어떤 기준으로 모델을 고를까

실무에서는 다음 두 가지 관점에서 모델 크기와 구조를 결정하게 됩니다.

“실시간 반응”이 최우선이면: Nemotron 3 Nano 같은 Nano급 모델이 적합
“정밀한 추론”이 더 중요하다면: 더 큰 Nemotron 3 계열이나 외부 LLM과의 하이브리드 구성을 고려

여기서 오픈 모델의 장점이 크게 드러납니다.
Nemotron 3 Nano를 기본 두뇌로 쓰되, 특정 복잡한 질문에만 큰 모델을 쓰는 라우팅 전략을 구현할 수 있습니다⁴.
모두 오픈 스택 기반이기 때문에, 어떤 요청을 어떤 모델로 보낼지 로직을 직접 설계할 수 있습니다.

Magpie TTS로 “말하는 에이전트”의 마지막 1cm 채우기

이제 에이전트가 텍스트로 답변을 만들었으니, 다시 “사람의 목소리”로 바꿔줘야 합니다.
여기서 쓰이는 모델이 NVIDIA Magpie TTS입니다.

Magpie는 아직 프리뷰 단계의 텍스트-투-스피치 모델이지만,
음성 에이전트 관점에서 상당히 중요한 기능을 제공합니다.

하이브리드 스트리밍 모드가 의미하는 것

Magpie의 가장 큰 특징은 하이브리드 스트리밍 모드입니다.
이 모드를 사용하면 초기 응답 지연 시간을 기존 방식 대비 최대 3배 정도 줄일 수 있습니다¹.

이게 어떤 의미냐 하면,

이전 세대 TTS: LLM이 문장을 다 생성할 때까지 기다렸다가, 통으로 TTS에 넣고 음성을 생성
Magpie 하이브리드 스트리밍: LLM이 문장을 모두 끝내지 않아도, 앞부분부터 바로 음성을 만들어 재생 시작

즉, 사람 입장에서 느끼는 체감은 “생각하자마자 말하는 것 같은” 느낌에 훨씬 가까워집니다.

ASR → LLM → TTS 전체 체인을 합쳐도,
적절한 최적화만 해주면 음성-음성 레이턴시를 1초 아래, 잘하면 수백 ms대로 묶을 수 있습니다.

자연스러움과 신뢰감

Magpie는 지연 시간뿐 아니라, 음질과 자연스러운 억양도 중요한 포인트입니다.
고객 지원, 병원 안내, 금융 상담처럼 신뢰가 중요한 영역에서는
“기계음 같다”는 느낌이 들면 그 순간 신뢰도가 급격히 떨어집니다.

오픈 TTS 모델을 직접 쓰면 다음이 가능해집니다.

도메인에 맞는 톤(차분한 상담, 활기찬 안내 등)으로 파인튜닝
특정 브랜드 보이스에 맞게 스타일 튜닝
특정 언어/억양에 맞는 목소리 버전 관리

상용 API도 어느 정도 지원은 하지만,
온프레미스 환경에서 완전히 나만의 목소리를 만들고 관리하려면 오픈 모델이 훨씬 자유롭습니다.

전체 아키텍처: 로컬에서 클라우드까지, 최적의 조합 찾기

이제 세 모델을 하나로 엮어 “실제 동작하는” 음성 에이전트를 구성해 보겠습니다.

기본 파이프라인: 말 → 글 → 생각 → 글 → 말

가장 기본적인 구조는 다음 순서를 따릅니다.

사용자의 음성이 마이크로 들어온다.
오디오 스트림이 Nemotron Speech ASR 서버로 전달된다.
ASR이 스트리밍으로 텍스트를 생성한다.
턴 감지 로직이 “이제 사용자가 말을 멈췄다”고 판단하는 순간까지 기다린다.
해당 구간의 텍스트를 Nemotron 3 Nano LLM에게 넘겨 답변을 생성한다.
생성된 텍스트를 Magpie TTS로 보내 음성을 스트리밍으로 생성한다.
생성된 음성을 바로 사용자에게 재생한다.

NVIDIA와 파트너들의 레퍼런스 코드에서는 이 파이프라인을
Pipecat 같은 저지연 음성 에이전트 프레임워크와 결합해 구현하고 있습니다¹.

개발자는 GitHub에 공개된 코드를 클론해 다음처럼 활용할 수 있습니다¹.

개인 PC, RTX 5090, DGX 같은 환경에서 로컬 개발 및 실험
Modal 같은 클라우드 플랫폼에서 멀티 유저/프로덕션 환경 배포

RAG, 안전성, 멀티모달까지 확장하기

여기에 NVIDIA 기술 블로그에서 소개한 RAG + Guardrails 구조를 섞으면,
단순 대화 봇을 넘어서 엔터프라이즈급 음성 어시스턴트를 만들 수 있습니다[^2,^6].

대표적인 컴포넌트는 다음과 같습니다.

멀티모달 임베딩: llama-nemotron-embed-vl-1b-v2로 텍스트 + 이미지 문서를 벡터화
리랭킹: llama-nemotron-rerank-vl-1b-v2로 검색 결과 정밀 재정렬 (정확도 6~7% 개선)²
안전성: llama-3.1-nemotron-safety-guard-8b-v3로 20개 이상 언어에 대해 콘텐츠 안전성/PII 감시²
멀티모달 이해: nemotron-nano-12b-v2-vl로 이미지 포함 질의 처리²
추론: nemotron-3-nano-30b-a3b로 긴 컨텍스트 기반 reasoning²

음성 에이전트로 묶으면 구조는 대략 이렇게 됩니다.

ASR이 텍스트를 만든다.
텍스트가 RAG 파이프라인을 통해 사내 문서/이미지와 연결된다.
Nemotron 3 Nano가 회의록, 기술 문서, 설계도 등까지 포함한 긴 컨텍스트에서 답변을 구성한다.
Safety Guard가 입력/출력을 점검해 민감한 표현이나 개인정보를 필터링한다.
마지막으로 TTS가 음성으로 내보낸다.

이 모든 것이 로컬 GPU에서 시작해, 필요하면 NVIDIA 클라우드 환경으로 동일 코드 베이스 그대로 확장 배포 가능합니다².

실무 팁: 레이턴시 측정, 배포 전략, 그리고 다음 단계

음성 에이전트는 체감 속도가 제품 성공을 좌우한다고 해도 과언이 아닙니다.
마지막으로, 구현할 때 꼭 챙겨야 할 실무 관점 몇 가지를 정리해 보겠습니다.

음성-음성 레이턴시를 직접 재보자

모델 별 레이턴시(ASR 24ms, TTS 3배 개선 등)도 중요하지만,
궁극적으로 우리가 신경 써야 하는 건 “사용자가 말 끝낸 순간부터, 에이전트 답이 들리기 시작할 때까지”입니다¹.

직접 측정해 보면 다음 같은 포인트를 튜닝할 수 있습니다.

오디오 청크 길이 (예: 20ms vs 40ms)
ASR 컨텍스트 크기 (80ms, 160ms, 560ms 중 선택)
LLM 토큰 단위 스트리밍 온/오프
TTS 스트리밍 버퍼 길이
네트워크 hop 수, WebSocket 서버 위치

가능하다면, 실제 사용자 세션을 녹음해 턴별 소요 시간 통계를 쌓아두고,
모델/구조를 바꿀 때마다 전후 비교를 해보는 것이 좋습니다.

로컬 vs 클라우드, 어떻게 나눌까

NVIDIA는 대부분의 모델을 Hugging Face 및 GitHub, build.nvidia.com, NVIDIA NIM 마이크로서비스 형태로 제공합니다[^5,^7].
즉, 개발자는 다음 같은 전략을 취할 수 있습니다.

개발/테스트:
- 로컬 GPU(24GB 이상) + NeMo / Transformers로 직접 모델 로딩[^2,^6]
프로덕션:
- 사내 GPU 클러스터에 직접 호스팅
- 또는 NVIDIA NIM/클라우드 런타임으로 마이크로서비스 형태 배포⁴

규제나 보안이 민감한 영역이라면,
ASR/LLM/TTS 핵심 모델은 온프레미스로 두고,
상대적으로 덜 민감한 멀티모달 검색이나 대용량 배치 작업만 클라우드로 돌리는 하이브리드 구성도 가능합니다.

커뮤니티 자료와 레퍼런스를 적극 활용하기

NVIDIA와 파트너들은 음성 에이전트 구축을 위한 꽤 풍부한 자료를 이미 공개해두었습니다.

GitHub 레포지토리: Nemotron Speech ASR + Nemotron 3 Nano + Magpie TTS 음성 에이전트 예제 코드¹
Voice AI & Voice Agents Illustrated Primer: 아키텍처, 모델, 인프라 전반을 그림 중심으로 설명한 문서¹
NVIDIA Technical Blog 튜토리얼: RAG + Guardrails를 포함한 실전 코드 예제[^2,^6]
Pipecat Discord 및 커뮤니티 강의: 실제 구현 사례와 튜닝 팁을 얻을 수 있는 채널¹

처음부터 모든 걸 직접 설계하려 하기보다,
이 레퍼런스 구조를 복제한 뒤, 도메인에 맞게 조금씩 바꿔가는 방식이 시간과 비용을 크게 줄여 줍니다.

시사점: 음성 에이전트, 이제는 “내가 통제하는 스택”으로

NVIDIA의 Nemotron 오픈 모델과 레퍼런스 아키텍처가 보여주는 흐름은 분명합니다.

초저지연 ASR (Nemotron Speech)
고효율·장문 컨텍스트 LLM (Nemotron 3 Nano)
스트리밍 TTS (Magpie)
여기에 멀티모달 RAG, 안전성 모델까지 얹으면

더 이상 “비싼 상용 API를 써야만 할 것 같은” 영역이 아닙니다.
온프레미스/클라우드 어디서든, 나만의 음성 에이전트를, 내가 원하는 방식으로 설계할 수 있는 시대가 열린 겁니다.

실무적으로는 다음 세 가지를 권장합니다.

우선은 레퍼런스 코드를 그대로 띄워보고,
레이턴시와 품질을 직접 체감해 본다.
그 다음, 도메인 특화 데이터로 ASR/LLM/TTS를 조금씩 튜닝해 본다.
예를 들어 금융 용어, 병원 용어, 사내 용어에 대한 인식·생성 성능을 올리는 식입니다.
마지막으로, RAG + 안전성 + 멀티에이전트 구성으로 확장해
진짜 업무를 대신 처리해 줄 수 있는 에이전트로 키워 나간다.

이 흐름을 한 번 제대로 경험해두면,
앞으로 어떤 음성 AI 프로젝트를 기획하든 “오픈 모델 기반 스택”이라는 강력한 옵션을 테이블 위에 올려둘 수 있게 될 것입니다.

참고

¹Building Voice Agents with NVIDIA Open Models

²How to Build a Voice Agent with RAG and Safety Guardrails

³NVIDIA AI Released Nemotron Speech ASR

⁴NVIDIA Unveils New Open Models, Data and Tools to Advance AI Across Every Industry