메인 콘텐츠로 건너뛰기

Qwen3-TTS 오픈소스 공개: 3초 음성복제·보이스 디자인 시대

요약

Qwen3-TTS는 여러 언어에서 텍스트를 자연스러운 음성으로 바꿔주는 최신 TTS(Text-to-Speech) 모델 시리즈입니다. 그런데 이번엔 “잘 읽어준다” 수준을 넘어, 3초만 들려주면 내 목소리를 복제하고, 설명 한 줄로 새 목소리(보이스 디자인)까지 만들어내는 기능을 오픈 소스로 풀었습니다.

Qwen3-TTS는 중국어·영어·일본어·한국어를 포함한 10개 주요 언어를 지원하는 다국어 TTS라서, 한국어 텍스트도 바로 음성으로 만들 수 있습니다. 특히 억양·속도·감정 표현을 세밀하게 제어하는 구조라, 최신 상용 TTS와 비교해도 한국어 발음과 자연스러움이 꽤 경쟁력 있는 편입니다.

이 글에서는 Qwen3-TTS Family가 무엇이 달라졌는지, 어떤 모델이 공개됐는지, 브라우저만으로 어떻게 테스트하는지, 그리고 기대와 불안(사기·딥페이크) 이슈까지 한 번에 정리해보겠습니다.

Qwen3-TTS 오픈소스, 뭐가 그렇게 큰 사건일까?

예전에도 TTS는 많았습니다. 하지만 “내가 원하는 목소리”를 만들려면 비싼 상용 API를 쓰거나, 긴 음성 데이터를 모아 튜닝해야 하는 경우가 흔했죠.

Qwen3-TTS 오픈소스화의 핵심은 진입장벽이 확 낮아졌다는 겁니다. GPU가 있으면 직접 돌릴 수 있고, 없어도 웹 브라우저에서 데모로 목소리 복제까지 시험해볼 수 있습니다. 다시 말해, 음성 생성 기술이 ‘구경거리’에서 ‘누구나 쓰는 도구’로 내려온 순간에 가깝습니다.1

3초 음성 복제(Voice Clone): 이제 “한 문장”이면 충분

Qwen3-TTS의 음성 복제는 콘셉트가 아주 직관적입니다. 짧게 샘플을 들려주고(약 3초), 그 사람의 말투와 음색을 유지한 채로 다른 문장을 읽게 만드는 방식이죠.

흥미로운 점은 여기서 끝이 아니라는 겁니다. 특정 언어만 되는 게 아니라 여러 언어로도 확장되며, “내 목소리로 외국어를 읽는” 응용이 가능해집니다. 실제로 Qwen 측은 3초 음성으로 복제하고 10개 언어에서 재현할 수 있다고 밝혔습니다.2

이 기능이 현실적으로 의미 있는 이유는 간단합니다. 이제 음성 복제는 ‘전문 스튜디오 작업’이 아니라 ‘마이크 버튼 한 번’이 됩니다.1

보이스 디자인(Voice Design): “목소리를 프롬프트로 주문”하는 방식

Voice Clone이 “기존 목소리를 복사”하는 기술이라면, Voice Design은 “세상에 없던 목소리를 주문 제작”하는 쪽입니다.

예를 들어 “중년 남성, 굵은 바리톤, 템포 빠르게, 에너지 넘치고 과장된 톤”처럼 특징을 글로 설명하면 그에 맞춘 음성을 뽑아내는 식이죠.2 이게 왜 중요하냐면, 성우 섭외가 어려운 소규모 팀(1인 크리에이터, 인디 게임 개발자, 스타트업)에게 ‘캐릭터 음성’이 처음부터 제작 가능한 영역으로 바뀌기 때문입니다.

그리고 여기서 한 단계 더 나아가면, 같은 문장이라도 감정·속도·억양을 미세 조정해 “출력 음성을 조작”하는 워크플로우가 만들어집니다. 즉, TTS가 단순 낭독기가 아니라 ‘음성 편집기’처럼 쓰이기 시작합니다.

Qwen3-TTS 성능 포인트: 데이터·구조·벤치마크가 말해주는 것

좋은 TTS는 결국 세 가지에서 갈립니다. 학습 데이터의 크기와 다양성, 실시간 합성에 유리한 구조, 그리고 긴 문장을 읽어도 무너지지 않는 안정성입니다.

Qwen3-TTS는 10개 언어, 500만 시간 이상의 음성 데이터를 학습했다고 알려졌고1, 실시간 합성을 위한 듀얼 트랙 LM 구조를 채택했습니다.1 “실시간”을 강조하는 이유는, 라이브 방송/게임/콜센터처럼 지연 시간이 품질만큼 중요한 환경이 많기 때문이죠.

또한 다국어 TTS 테스트, InstructTTSEval, 장문 음성 테스트 세트 등 여러 평가에서 최상급 결과를 보였다고 소개됩니다.1 숫자 하나만 보고 결론 내릴 수는 없지만, 적어도 “연구 데모 수준”이 아니라 “실사용 경쟁 구도”에 들어온 모델이라는 신호로 읽힙니다.

모델 용량과 선택 가이드: 0.6B vs 1.7B, 무엇을 쓰면 좋을까?

이번에 공개된 베이스 모델은 크게 0.6B와 1.7B 라인업으로 알려져 있습니다. 용량도 공개돼 있는데, Qwen/Qwen3-TTS-12Hz-1.7B-Base는 약 4.54GB, Qwen/Qwen3-TTS-12Hz-0.6B-Base는 약 2.52GB입니다.1

단순하게 말하면, PC 자원이 넉넉하지 않거나 “일단 돌려보기”가 목표라면 0.6B가 접근성이 좋습니다. 반대로 더 안정적인 발음, 더 섬세한 표현을 원한다면 1.7B가 매력적일 가능성이 큽니다(환경에 따라 체감은 달라질 수 있습니다).

중요한 건, 둘 다 오픈 소스 생태계에서 실험 가능한 크기로 내려왔다는 점입니다. 예전엔 “TTS 모델 하나 받아볼까?”가 아니라, “서버 비용부터 계산하자”였으니까요.

Hugging Face 데모로 무료 체험하기: 브라우저만 있으면 된다

기술 글을 아무리 읽어도, 한 번 직접 들어보는 것만큼 빠른 이해는 없습니다. Hacker News에서도 Hugging Face 스페이스 데모에서 “Voice Clone 탭”으로 직접 녹음하고 다른 문장을 내 목소리로 읽게 만드는 방법이 공유됐습니다.3

이 흐름이 상징적입니다. 이제 음성 복제는 GPU가 없어도 됩니다. 웹 브라우저와 마이크만 있으면 “내 목소리로 AI가 말하는 순간”을 바로 확인할 수 있으니까요.3

시사점: “누구나 음성을 만든다”는 시대의 규칙

Qwen3-TTS 오픈소스 공개는 크리에이터에겐 축제고, 보안 관점에선 경보입니다.

좋은 쪽부터 보면, 게임 캐릭터 더빙, 유튜브 다국어 채널, 접근성(시각장애인 리더, 발화 보조) 같은 영역이 확 빨라질 겁니다. 특히 소규모 팀이 ‘음성 인프라’를 갖추는 비용이 급감합니다.

하지만 동시에 “가족 목소리로 전화해서 송금 요구” 같은 사기가 더 정교해질 수 있다는 우려도 커졌고, HN 토론에서도 이 공포가 강하게 드러났습니다.3 그래서 현실적인 조언 하나를 덧붙이자면, 가족·지인 간에는 음성만 믿지 말고 확인 규칙을 만들어두는 게 좋습니다. 예를 들어 서로만 아는 확인 질문(암구호)을 정해두는 방식은, 생각보다 효과적인 ‘아날로그 인증’이 될 수 있습니다.3

정리하면, Qwen3-TTS는 “목소리”를 텍스트·이미지처럼 다룰 수 있게 만든 도구입니다. 이제 중요한 건 모델 성능만이 아니라, 우리가 어떤 안전장치와 사용 문화를 함께 설계하느냐입니다. 기술은 이미 대중화 단계로 내려왔고, 적응은 우리의 몫이 됐습니다.

참고

1Qwen3-TTS family is now open sourced: Voice design, clone, and generation | Hacker News

2Alibaba's new Qwen models can clone voices from three seconds of audio

3Qwen3-TTS family is now open sourced: Voice design, clone, and generation | Hacker News

#텍스트음성변환#음성복제#보이스디자인#오픈소스#딥페이크

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.

Tilnote 를 사용해 보세요.

키워드만 입력하면 나만의 학습 노트가 완성돼요.

책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.

콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.