PersonaPlex: 풀듀플렉스 대화형 음성 모델 이해하기

핵심 요약

PersonaPlex는 사용자가 정한 목소리와 역할(페르소나)을 유지하면서 사람처럼 끊김 없이 대화하는 풀듀플렉스 음성 AI 모델이다.
기존 'ASR→LLM→TTS' 파이프라인과 Moshi 스타일의 자연스러운 대화를 결합해, 자연스러운 말투와 강한 태스크 수행 능력을 동시에 달성한다.

풀듀플렉스 대화의 의미와 장점

PersonaPlex는 사용자가 말하는 동안에도 동시에 듣고 응답을 생성하는 구조를 사용한다.
사람과의 전화 통화처럼 "말하면서 듣고, 듣다가 끼어들고, 중간중간 맞장구 치는" 대화 흐름이 가능해지는 것이다.

기존 파이프라인(ASR→LLM→TTS)은 음성을 문자로 바꾸고, 언어 모델이 문장 전체를 생성한 후, TTS가 다시 음성으로 바꾸는 방식이라 매번 지연이 발생했다.
반대로 PersonaPlex는 하나의 통합 모델이 내부 상태를 지속적으로 업데이트하며 곧바로 음성을 스트리밍하므로, 응답 지연이 줄어들고 대화 리듬이 자연스럽다.

이 방식은 단순히 빠르기만 한 것이 아니라, "언제 잠깐 멈출지, 언제 '음, 아' 같은 추임새를 넣을지, 언제 끼어들지" 같은 비언어적 신호도 학습하게 해, 대화의 품질을 크게 끌어올린다.

페르소나 제어: 목소리 + 텍스트 역할 프롬프트

PersonaPlex의 핵심 아이디어는 "두 가지 프롬프트로 하나의 인격을 만든다"는 점이다.
하나는 음성 프롬프트로, 화자의 목소리 톤, 말투, 속도, 억양 등의 특성을 압축한 오디오 임베딩이다.
다른 하나는 텍스트 프롬프트로, 역할(예: 현명한 선생님, 콜센터 상담원), 배경 정보(회사 정보, 규정, 상황), 대화 스타일 등을 설명하는 자연어 지시문이다.

이 둘을 함께 사용하면, 예를 들어 "차분한 목소리를 가진 친절한 은행 직원", "흥분한 톤으로 말하는 우주선 엔지니어", "편안하게 떠드는 친구" 같은 복합적인 페르소나를 만들 수 있다.
중요한 것은, 대화가 길어져도 이 페르소나가 계속 유지된다는 점으로, 목소리와 역할이 중간에 흔들리지 않고 일관된 캐릭터를 보여준다.

내부 구조: Moshi·Mimi·Helium 위에서의 확장

PersonaPlex는 Kyutai의 Moshi 아키텍처를 기반으로 한 70억 파라미터 모델이다.
입력 음성은 Mimi라는 스피치 인코더(합성곱 + 트랜스포머)를 통해 음성 토큰으로 변환된다.
이후 시간축과 깊이 방향으로 설계된 듀얼 스트림 트랜스포머가 전체 대화를 처리하면서, "지금 상대가 말하는 중인지, 내가 말해야 할 타이밍인지"를 판단한다.

출력 쪽에서는 Mimi 스피치 디코더(트랜스포머 + 합성곱)가 24kHz 품질의 음성을 직접 생성한다.
언어적 이해와 추론은 Helium이라는 언어 모델이 담당해, 새로운 상황에서도 적절한 단어 선택과 논리적 설명을 가능하게 한다.

듀얼 스트림 구조 덕분에 모델은 듣기와 말하기를 동시에 할 수 있으며, 내부 상태를 계속 유지하여 대화 문맥과 감정 흐름을 놓치지 않는다.

학습 데이터 설계: 현실 대화 + 합성 대화의 조합

PersonaPlex 개발의 가장 큰 문제는 "자연스럽고 다양한 실제 대화 데이터가 부족하다"는 점이다.
특히 끼어들기, 맞장구, 긴 침묵, 감정 변화 등은 스크립트 기반 TTS 대화로는 자연스럽게 만들기 어렵다.

이를 위해 연구진은 두 축의 데이터를 결합했다.
첫째, Fisher English 코퍼스의 실제 전화 대화 7,303개(1217시간)를 사용해, 진짜 사람들 사이의 말투와 리듬, 감정 반응, 자연스러운 맞장구를 학습시켰다.
둘째, Qwen3-32B와 GPT-OSS-120B로 생성한 대화 스크립트를 Chatterbox TTS로 읽어 합성한 "어시스턴트·고객 응대" 데이터 14만 건 이상(총 2250시간)을 사용해, 역할 수행과 규칙 준수 능력을 집어넣었다.

결국 실제 대화는 "어떻게 말할지"를, 합성 대화는 "무엇을 말할지"를 가르치는 역할을 한다고 볼 수 있다.

페르소나 주석: 과거 대화를 '설명 텍스트'로 되살리기

Fisher 코퍼스는 원래 단순한 전화 대화 데이터일 뿐, "이 사람은 누구이고, 어떤 상황에서 이런 얘기를 하는지"가 명시되어 있지 않다.
연구진은 GPT-OSS-120B를 활용해 이 대화들을 다시 읽고, 각 화자에 대한 간단한 역할 설명과 맥락을 뒤늦게 생성했다.

예를 들어 "그냥 대화하는 사람"을 "대화하는 걸 좋아하는 사람", "샌프란시스코에 오래 살았고 회의를 싫어하는 교사" 같은 구체적인 페르소나로 정리해 텍스트 프롬프트로 붙여준다.
이렇게 하면 모델은 같은 대화라도 "역할 지시가 있을 때 어떻게 행동해야 하는지"를 함께 배우게 된다.

이 기법의 핵심은 기존의 무가공 대화를, 이후에 LLM을 이용해 "역할·성격 레이블이 붙은 데이터"로 재활용했다는 점이다.
실제 서비스 개발에서도 과거 콜센터 녹취나 회의록에 비슷한 방식으로 페르소나를 붙여 재학습하는 전략을 떠올릴 수 있다.

자연스러움과 태스크 수행력의 분리·결합

현실 대화 데이터는 말투와 리듬은 뛰어나지만, 다양한 도메인의 업무 지식을 담기엔 부족하다.
반대로 합성 고객응대·어시스턴트 데이터는 여러 산업 도메인, 규칙, 안내 문구 등 업무 측면은 풍부하지만, 감정 표현이나 자연스러운 끼어들기·맞장구는 어색하다.

PersonaPlex는 이 두 종류의 데이터를 같은 형식의 "텍스트 프롬프트 + 음성 프롬프트" 구조로 섞어서 학습한다.
이 덕분에 모델은 Fisher에서 배운 자연스러운 대화 패턴을 유지하면서도, 합성 데이터에서 배운 규칙 준수, 신원 확인, 정보 요약, 질문-답변 등을 동시에 수행할 수 있게 된다.

결과적으로 "사람처럼 말하지만, 콜센터 직원처럼 책임감 있게 답하는" 스타일의 에이전트를 만들 수 있다는 점이 중요한 성과다.

학습 범위를 넘어서는 일반화: 우주선·원자로 시나리오

훈련 데이터는 기본적으로 질의응답형 어시스턴트와 다양한 고객 서비스 상황에 초점을 맞췄다.
그럼에도 불구하고, 논문에서 소개한 우주선 원자로 고장 시나리오처럼, 훈련 시 보지 못한 영역의 기술적 위기 상황에도 모델이 꽤 자연스럽게 대응하는 모습이 관찰되었다.

이때 모델은 단순히 말투만 맞추는 것이 아니라, 원자로 관련 어휘, 긴박한 말투, 문제 해결을 위한 단계적 추론까지 보여준다.
이는 Moshi의 기반 언어 모델인 Helium이 광범위한 텍스트로 사전 학습되어 있었기 때문으로 추정되며, "음성 대화 모델의 성능 상한선은 결국 그 안에 들어 있는 언어 모델의 범용성에 크게 의존한다"는 점을 시사한다.

실무적으로는, 특정 도메인에 맞춰 조금만 파인튜닝해도 그 밖의 영역에서 꽤 유연하게 동작할 수 있음을 의미하며, 초기 서비스 론칭 시 과도한 도메인 데이터 수집이 없어도 MVP를 만들 가능성을 보여준다.

평가와 활용 가능성

PersonaPlex는 FullDuplexBench라는 벤치마크에서 턴테이킹, 끼어들기 처리, 일시 정지 대응 등 대화 역학 측면에서 높은 점수를 보였다.
또한 GPT-4o 기반의 응답 품질 평가에서, 질문-답변형 어시스턴트 태스크에서 경쟁 모델보다 우수한 태스크 수행력을 보여준다.

연구진은 여기에 더해 고객 서비스 상황에 특화된 ServiceDuplexBench를 만들어, 실제 콜센터·상담 봇 같은 상황에서의 태스크 준수도를 측정했다.
코드와 모델 가중치는 MIT 및 NVIDIA Open Model License로 공개되어 있어, 연구·프로토타입 개발에 직접 활용할 수 있다.

서비스 관점에서 보면, "내 회사 전용 목소리·역할을 가진 실시간 음성 상담원"을 비교적 적은 데이터로 만들 수 있는 기반 기술로 볼 수 있다.

인사이트

PersonaPlex는 "자연스러운 말하기"와 "정확한 역할 수행"을 따로 학습한 뒤, 공통된 프롬프트 구조로 결합해 낸 사례다.
실제로 AI 음성 에이전트를 만들 때도, 말투·감정·호흡은 실제 대화 녹취에서, 규칙·지식·절차는 합성 데이터나 텍스트 기반 LLM에서 가져오는 전략이 효과적일 수 있다.

실천적인 관점에서, 자신만의 음성 에이전트를 만들고 싶다면 다음을 고려할 수 있다.
첫째, "누가 말하는가(목소리)"와 "어떤 역할인가(텍스트 프롬프트)"를 분리해서 설계하라.
둘째, 실제 사람들 사이의 대화 데이터를 최대한 확보해, 자연스러운 리듬과 맞장구 패턴을 학습시키는 것이 중요하다.
셋째, 도메인 태스크는 합성 대화를 적극적으로 활용해 빠르게 커버하되, 프롬프트 형식을 통일해 "자연스러움"과 "업무 정확성"을 연결하라.

이러한 설계 철학을 이해하면, PersonaPlex 자체를 쓰지 않더라도, 향후 어떤 음성 기반 AI 시스템을 설계·평가할 때 무엇을 중시해야 하는지 감각을 잡는 데 큰 도움이 될 것이다.

출처 및 참고 : NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice - NVIDIA ADLR

@article{roy2026personaplex,

title={PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models},

author={Roy, Rajarshi and Raiman, Jonathan and Lee, Sang-gil and Ene, Teodor-Dumitru and Kirby, Robert and Kim, Sungwon and Kim, Jaehyeon and Catanzaro, Bryan},

year={2026}

}