검색
검색
공개 노트 검색
회원가입로그인

알리바바 클라우드의 차세대 대규모 언어 모델 Qwen3 출시: 향상된 추론, 코딩, 다국어 지원 및 에이전트 기능 강화

요약
  • 알리바바 클라우드의 Qwen3는 하이브리드 사고 모드를 통해 다양한 작업에서 유연한 추론 능력을 제공합니다.

  • Qwen3 시리즈는 뛰어난 성능과 효율성을 입증하며, 높은 다국어 지원 및 에이전트 기능을 갖추고 있습니다.

  • 다양한 벤치마크에서 경쟁 모델을 능가하는 성과를 보였고, 오픈 소스형식으로 제공되어 연구와 개발에 용이합니다.

알리바바 클라우드가 공개한 차세대 대규모 언어 모델 시리즈인 Qwen3는 이전 버전에 비해 획기적인 성능 향상을 보여주며, 특히 추론, 코딩, 에이전트 기능 및 다국어 지원 측면에서 주목할 만한 발전을 이루었습니다. Qwen3는 하이브리드 사고 모드를 도입하여 복잡한 문제 해결을 위한 심층 추론과 간단한 질문에 대한 신속한 응답을 단일 모델 내에서 전환할 수 있는 유연성을 제공합니다.

플래그십 모델인 Qwen3-235B-A22B는 DeepSeek-R1, OpenAI o1, Grok-3, Gemini-2.5-Pro 등 최고 수준의 모델들과 경쟁력 있는 성능을 다양한 벤치마크에서 입증했으며, 일부 벤치마크에서는 이들을 능가하는 결과를 보였습니다. 특히, 모델 아키텍처 개선, 훈련 데이터 증가, 효율적인 훈련 방법 덕분에 Qwen3의 밀집 모델(Dense Model)들은 더 적은 파라미터로 이전 세대인 Qwen2.5의 더 큰 모델들과 동등하거나 더 우수한 성능을 달성했으며, 소형 MoE 모델인 Qwen3-30B-A3B는 활성 파라미터 수를 10배 이상 줄이면서도 QwQ-32B 모델보다 뛰어난 성능을 보여 효율성이 크게 향상되었음을 시사합니다.

Qwen3 시리즈는 0.6B부터 235B 파라미터까지 다양한 크기의 밀집 모델과 MoE 모델 8종을 오픈 소스(Apache 2.0 라이선스)로 공개하여, 개발자 및 연구 커뮤니티의 접근성을 높였습니다. 119개의 언어와 방언을 지원하는 강력한 다국어 능력과 향상된 에이전트 기능은 Qwen3의 글로벌 적용 가능성을 확장시킵니다.

모델 라인업 및 아키텍처

알리바바는 Qwen3 시리즈를 통해 총 8개의 오픈 웨이트(Open-Weight) 모델을 공개했습니다. 이는 크게 두 가지 유형, 즉 밀집 모델(Dense Model)전문가 혼합 모델(MoE, Mixture-of-Experts Model)로 나뉩니다. 밀집 모델은 Qwen3-0.6B, Qwen3-1.7B, Qwen3-4B, Qwen3-8B, Qwen3-14B, Qwen3-32B의 6가지 크기로 구성되어 파라미터 수가 6억 개에서 320억 개까지 다양합니다.

MoE 모델은 Qwen3-30B-A3B와 플래그십 모델인 Qwen3-235B-A22B 두 가지입니다. 여기서 'A'는 활성 파라미터(Active Parameters)를 의미하며, 예를 들어 Qwen3-30B-A3B는 총 300억 개의 파라미터를 가지지만 추론 시에는 30억 개의 파라미터만 활성화하여 속도를 높입니다. 마찬가지로 Qwen3-235B-A22B는 총 2350억 개의 파라미터 중 220억 개의 파라미터만 활성화합니다. 이러한 MoE 아키텍처는 추론 비용을 절감하면서도 높은 성능을 유지하는 데 기여합니다.

Qwen3 모델들은 최대 32,768 토큰의 네이티브 컨텍스트 길이를 지원하며, YaRN(Yet another RoPE extensioN) 기법을 사용하여 최대 131,072 토큰까지 컨텍스트 창을 확장할 수 있습니다. 이는 모델이 더 긴 텍스트를 처리하고 복잡한 다중 턴 상호작용을 효과적으로 관리할 수 있도록 합니다. 아키텍처 측면에서 Qwen3-8B 모델은 36개의 레이어와 32개의 쿼리(Q) 어텐션 헤드, 8개의 키/밸류(KV) 어텐션 헤드를 사용하는 GQA(Grouped-Query Attention)를 특징으로 합니다.

Qwen3-30B-A3B 모델은 48개 레이어, 32개 Q 헤드, 4개 KV 헤드를 가지며, 128명의 전문가 중 8명을 활성화합니다. Qwen3-235B-A22B 모델은 94개 레이어, 64개 Q 헤드, 4개 KV 헤드를 사용하며, 동일하게 128명의 전문가 중 8명을 활성화합니다. 또한, MoE 모델의 훈련 안정성과 성능 향상을 위해 qk 레이어 정규화(qk layer normalization)글로벌 배치 로드 밸런싱(global batch load balancing)과 같은 혁신적인 기술이 적용되었습니다.

Qwen3의 핵심적인 아키텍처 특징 중 하나는 하이브리드 사고 모드(Hybrid Thinking Mode)입니다. 모든 Qwen3 모델은 추론 과정에서 사고 모드(Thinking Mode)비사고 모드(Non-thinking Mode)원활하게 전환할 수 있도록 설계되었습니다. 사고 모드는 복잡한 논리적 추론, 수학 문제 해결, 코딩 등 심층적인 사고가 필요한 작업에 적합하며, 모델이 단계별 추론 과정을 거쳐 최종 답변을 도출합니다.

반면, 비사고 모드는 효율적인 범용 대화에 적합하며, 속도가 중요한 간단한 질문에 대해 빠르고 즉각적인 응답을 제공합니다. 사용자는 enable_thinking 매개변수(하드 스위치)나 프롬프트 내 /think, /no_think 명령어(소프트 스위치)를 통해 특정 작업에 맞춰 모델의 사고 수준을 동적으로 제어할 수 있습니다. 이러한 유연성은 사용자가 추론 예산을 조정하여 정확성과 자원 비용 간의 최적 균형을 맞출 수 있게 하며, 다양한 워크플로우 통합 요구를 충족시키는 것을 목표로 합니다.

Qwen3 아키텍처 특징<span class="footnote-wrapper">[63]</span>

Qwen3 아키텍처 특징

벤치마크 성능 평가

Qwen3 모델들은 다양한 산업 표준 벤치마크에서 최상위권 성능을 기록하며 그 우수성을 입증했습니다. 플래그십 모델인 Qwen3-235B-A22B는 코딩, 수학, 일반 능력 등 여러 평가 영역에서 DeepSeek-R1, OpenAI o1, o3-mini, Grok-3, Gemini-2.5-Pro와 같은 경쟁 모델들과 대등하거나 이를 능가하는 결과를 보였습니다.

구체적인 벤치마크 결과를 살펴보면 다음과 같습니다.

  • 수학 및 추론 능력: 올림피아드 수준의 수학 능력을 평가하는 AIME25 벤치마크에서 Qwen3는 81.5점을 기록하며 오픈 소스 모델 중 최고 기록을 경신했습니다. GSM8KMATH 벤치마크에서도 Qwen3-72B는 각각 78.9점(8-shot)과 35.2점(4-shot)을 기록하며 높은 수학적 문제 해결 능력을 보여주었습니다. GPQA-Diamond와 같은 고난도 추론 테스트에서도 Qwen 2.5-Max (Qwen3의 이전 버전)는 DeepSeek-V3 및 다른 경쟁 모델들을 앞서는 성능을 보였습니다.

  • 코딩 능력: 코드 생성 및 이해 능력을 평가하는 LiveCodeBench에서 Qwen3-235B-A22B는 Grok-3를 능가하는 성능을 보였으며, Qwen3-32B 모델은 OpenAI의 o1 모델을 앞섰습니다. HumanEval (0-shot) 및 MBPP (3-shot) 벤치마크에서도 Qwen3-72B는 각각 35.4%52.2%의 정확도를 달성했습니다. Qwen 모델들은 전반적으로 코딩 관련 벤치마크에서 강력한 성능을 유지하고 있습니다.

  • 일반 능력 및 인간 선호도: 모델의 전반적인 지식 및 이해 능력을 측정하는 MMLU (5-shot) 및 C-Eval (5-shot) 벤치마크에서 Qwen3-72B는 각각 77.4점83.3점을 기록했습니다. 인간 선호도 정렬을 평가하는 ArenaHard 벤치마크에서는 Qwen3가 OpenAI-o1 및 DeepSeek-R1을 능가하는 점수를 획득했습니다. AGIEval과 같은 인간 중심 벤치마크에서도 Qwen 모델들은 우수한 일반 능력을 보여주고 있습니다.

  • 에이전트 능력: 모델의 도구 사용 및 자율 에이전트 능력을 평가하는 BFCL 벤치마크에서 Qwen3는 70.8점이라는 새로운 최고 기록을 세우며, Gemini-2.5-Pro, OpenAI-o1 등 최고 모델들을 능가했습니다.

아래 표는 주요 모델들의 벤치마크 성능을 요약한 것입니다. (Qwen3-72B는 Qwen 2.5세대 모델이지만, Qwen3 출시 시점의 최고 성능 모델 중 하나로 비교에 포함됨)

ModelMMLU (5-shot)C-Eval (5-shot)GSM8K (8-shot)MATH (4-shot)HumanEval (0-shot)MBPP (3-shot)ArenaHardLiveCodeBenchAIME25BFCL
Qwen-72B77.483.378.935.235.452.2> o1, R1---
Qwen3-235B-A22B----> Grok3-> o1, R1> Grok381.570.8
Qwen3-32B----> o1--> o1--
DeepSeek-R1------< Qwen3--< Qwen3
OpenAI o1----< Qwen3-32B-< Qwen3< Qwen3-32B-< Qwen3
Gemini-2.5-Pro---------< Qwen3
LLaMA2-70B< 77.4< 83.3< 78.9< 35.2< 35.4< 52.2----

참고: 일부 벤치마크 점수는 사용 가능한 최신 데이터 또는 특정 모델 버전에 따라 다를 수 있습니다. '-'는 해당 벤치마크 점수가 제공된 컨텍스트에서 확인되지 않았음을 의미합니다.

Qwen3 성능 비교&lt;span class=&quot;footnote-wrapper&quot;&gt;[63]&lt;/span&gt;

Qwen3 성능 비교

Qwen3 성능 비교&lt;span class=&quot;footnote-wrapper&quot;&gt;[63]&lt;/span&gt;

Qwen3 성능 비교

주요 성능 특징 분석

Qwen3는 이전 세대 모델 및 경쟁 모델들과 비교하여 여러 핵심 영역에서 뚜렷한 성능 향상을 보여줍니다. 특히 추론 능력, 효율성, 다국어 지원, 에이전트 기능이 강화되었습니다.

하이브리드 사고 모드를 통한 추론 능력 강화: Qwen3의 가장 혁신적인 특징 중 하나는 하이브리드 사고 모드입니다. 이 기능은 모델이 문제의 복잡성에 따라 단계별 추론(Thinking Mode)을 수행하거나 신속한 응답(Non-thinking Mode)을 제공하도록 유연하게 전환할 수 있게 합니다. 사고 모드에서는 복잡한 수학 문제, 논리 추론, 코드 생성 등에서 이전 QwQ 모델(사고 모드 특화) 및 Qwen2.5 Instruct 모델(비사고 모드)보다 향상된 성능을 보입니다. 사용자는 enable_thinking 플래그나 프롬프트 내 명령어를 통해 이 모드를 제어할 수 있으며, 이는 추론 예산 제어를 가능하게 하여 비용 효율성과 추론 품질 사이의 균형을 맞출 수 있도록 지원합니다. 실제 테스트에서도 사고 모드는 복잡한 코드 생성이나 수학 추론 문제에서 비사고 모드보다 월등한 성능을 나타냈습니다.

파라미터 효율성 증대: Qwen3는 모델 아키텍처 개선, 훈련 데이터 증가, 효과적인 훈련 방법론 덕분에 파라미터 효율성이 크게 향상되었습니다. 예를 들어, Qwen3-4B 모델은 이전 세대의 Qwen2.5-72B-Instruct 모델과 동등한 성능을 보여주며, Qwen3-32B 모델은 Qwen2.5-72B-Base 모델을 능가하는 성능을 달성했습니다. 이는 동일한 하드웨어에서 더 우수한 성능을 제공하거나, 유사한 성능을 더 적은 자원으로 달성할 수 있음을 의미합니다. MoE 모델인 Qwen3-30B-A3B는 QwQ-32B 모델과 비교하여 활성 파라미터를 1/10 수준으로 줄였음에도 불구하고 더 뛰어난 성능을 보였으며, Qwen3-235B-A22B는 DeepSeek-R1 모델의 1/3 수준의 파라미터로 더 우수한 성능과 대폭 절감된 비용을 제공한다고 알려졌습니다.

다국어 능력 확장: Qwen3는 지원 언어 및 방언의 수를 119개로 대폭 확장하여 Qwen2.5의 3배에 달하는 범위를 커버합니다. 이는 웹 데이터뿐만 아니라 PDF와 같은 문서에서 텍스트를 추출하고(Qwen2.5-VL 활용), 추출된 콘텐츠의 품질을 개선(Qwen2.5 활용)하는 등의 노력을 통해 구축된 대규모 다국어 데이터셋 덕분입니다. 이처럼 광범위한 다국어 지원은 Qwen3가 글로벌 시장, 특히 언어적 다양성이 풍부한 신흥 지역에서 활용될 수 있는 강력한 기반을 마련합니다. 다국어 명령어 이해(Instruction Following) 및 번역 능력 또한 강화되었습니다.

향상된 코딩 및 에이전트 기능: Qwen3 모델들은 코딩 및 에이전트 기능에 최적화되었습니다. BFCL 벤치마크에서 최고 기록을 세우며 Gemini-2.5-Pro, OpenAI-o1 등을 능가하는 에이전트 능력을 입증했습니다. 또한 MCP(Model Conditioned Prompting 또는 Model Context Protocol) 지원을 강화하고, 도구 호출(Function Calling) 능력을 향상시켜 외부 도구와의 정밀한 통합을 가능하게 합니다. 이는 자율 에이전트 개발이나 고정밀 개발자 도구와 같은 정교한 애플리케이션 구축을 지원하며 코딩 복잡성을 크게 줄여줍니다. 다만, 일부 사용자 테스트에서는 코딩 성능이 기대에 미치지 못하거나 환각(Hallucination) 현상이 나타나는 경우도 보고되었습니다.

우수한 인간 선호도 정렬: Qwen3는 창의적 글쓰기, 역할 연기, 다중 턴 대화, 명령어 준수 등에서 뛰어난 인간 선호도 정렬(Human Preference Alignment)을 보여주며, 더욱 자연스럽고 몰입감 있는 대화 경험을 제공합니다. ArenaHard 벤치마크에서 OpenAI-o1 및 DeepSeek-R1보다 높은 점수를 기록한 것은 이러한 특징을 뒷받침합니다.

훈련 데이터 및 방법론

Qwen3 모델의 뛰어난 성능은 방대한 양의 고품질 훈련 데이터정교한 훈련 방법론에 기반합니다.

훈련 데이터: Qwen3의 사전 훈련(Pre-training)에는 약 36조(Trillion) 개의 토큰이 사용되었으며, 이는 Qwen2.5의 18조 토큰에 비해 두 배 가까이 증가한 규모입니다. 이 데이터셋은 119개의 언어와 방언을 포괄하며, 웹 데이터뿐만 아니라 PDF와 같은 다양한 형식의 문서도 포함합니다. 문서 데이터의 텍스트 추출에는 Qwen2.5-VL 모델이, 추출된 콘텐츠의 품질 개선에는 Qwen2.5 모델이 활용되었습니다. 특히 수학 및 코딩 데이터의 양을 늘리기 위해 Qwen2.5-MathQwen2.5-Coder를 사용하여 교과서, 질의응답 쌍, 코드 스니펫 등의 합성 데이터(Synthetic Data)를 생성했습니다. 데이터 구성에서는 STEM(과학, 기술, 공학, 수학), 코딩, 추론과 같은 지식 집약적 데이터의 비율을 높여 모델의 관련 능력을 강화했습니다.

사전 훈련 (Pre-training): Qwen3의 사전 훈련은 3단계로 구성됩니다.

  1. 1단계 (S1): 30조 개 이상의 토큰과 4K 토큰의 컨텍스트 길이를 사용하여 모델을 훈련시켜 기본적인 언어 능력과 일반 지식을 학습시킵니다.

  2. 2단계 (S2): STEM, 코딩, 추론 작업 등 지식 집약적 데이터의 비율을 높인 개선된 데이터셋으로 추가 5조 개의 토큰에 대해 훈련을 진행하여 모델의 전문 능력을 향상시킵니다.

  3. 3단계 (Final Stage): 고품질의 장문 컨텍스트 데이터를 사용하여 컨텍스트 길이를 32K 토큰으로 확장하여 모델이 긴 입력을 효과적으로 처리할 수 있도록 합니다.

사후 훈련 (Post-training): 단계별 추론 능력과 신속한 응답 능력을 모두 갖춘 하이브리드 모델을 개발하기 위해 4단계의 사후 훈련 파이프라인이 구현되었습니다.

  1. 긴 연쇄 사고 (Long CoT) 콜드 스타트: 수학, 코딩, 논리 추론, STEM 문제 등 다양한 작업과 도메인을 포괄하는 광범위한 Long CoT 데이터를 사용하여 모델을 미세 조정(Fine-tuning)하여 기본적인 추론 능력을 갖추게 합니다.

  2. 추론 기반 강화 학습 (Reasoning-based RL): 규칙 기반 보상(Rule-based Rewards)을 활용하여 강화 학습(RL)을 위한 계산 리소스를 확장하고, 모델의 탐색 및 활용 능력을 향상시킵니다.

  3. 사고 모드 융합 (Thinking Mode Fusion): 2단계에서 강화된 사고 모델이 생성한 Long CoT 데이터와 일반적인 명령어 튜닝(Instruction-tuning) 데이터를 조합하여 미세 조정함으로써, 사고 능력과 비사고(빠른 응답) 능력을 사고 모델에 통합합니다.

  4. 일반 강화 학습 (General RL): 명령어 준수, 형식 준수, 에이전트 기능 등 20개 이상의 일반 영역 작업에 대해 RL을 적용하여 모델의 전반적인 능력을 더욱 강화하고 원치 않는 행동을 교정합니다.

이러한 체계적인 데이터 구축 및 다단계 훈련 과정을 통해 Qwen3는 다양한 영역에서 높은 수준의 성능과 유연성을 확보할 수 있었습니다.

활용 및 생태계

Qwen3 시리즈는 오픈 소스로 공개되어 연구자, 개발자, 기업 등 누구나 자유롭게 접근하고 활용할 수 있도록 지원합니다.

라이선스 및 접근성: 모든 Qwen3 모델(Dense 및 MoE)은 Apache 2.0 라이선스 하에 배포되어 상업적 이용을 포함한 광범위한 활용이 가능합니다. 모델 가중치와 코드는 Hugging Face, ModelScope, Kaggle 등 주요 AI 모델 플랫폼을 통해 공개적으로 접근할 수 있습니다. 이를 통해 전 세계 개발자들이 모델을 다운로드하여 자체 환경에서 사용하거나 연구 및 개발에 활용할 수 있습니다.

배포 및 추론 프레임워크: 알리바바는 Qwen3 모델 배포를 위해 SGLang (>=0.4.6.post1)vLLM (>=0.8.4)과 같은 고성능 추론 프레임워크 사용을 권장합니다. 이 프레임워크들은 OpenAI 호환 API 엔드포인트를 생성하여 기존 시스템과의 통합을 용이하게 하며, Qwen3의 하이브리드 사고 모드 전환 기능도 지원합니다. 로컬 환경에서의 사용을 위해서는 Ollama, LMStudio, MLX-LM, llama.cpp, KTransformers 등 다양한 도구들이 Qwen3를 지원하여 사용 편의성을 높였습니다.

API 서비스 및 애플리케이션: 개인 사용자들은 통이치엔원(通义千问) 앱을 통해 즉시 Qwen3를 체험할 수 있으며, 알리바바의 검색 엔진인 쿼크(Quark)에도 Qwen3가 통합될 예정입니다. 기업 및 개발자들은 알리바바 클라우드 바이롄(百炼) 플랫폼을 통해 Qwen3 모델의 API 서비스를 호출하여 자체 애플리케이션에 통합할 수 있습니다.

커뮤니티 및 생태계 지원: Qwen 팀은 모델 출시 전부터 Unsloth, Bartowski 등 커뮤니티의 주요 양자화(Quantization) 개발자들과 협력하여 모델 가중치에 미리 접근할 수 있도록 지원함으로써, 출시 당일부터 다양한 양자화 버전(예: 4비트, 8비트) 및 최적화된 추론 방식을 원활하게 사용할 수 있도록 했습니다. Unsloth는 자체 Dynamic 2.0 방법론을 적용하여 MMLU 및 KL Divergence 벤치마크에서 우수한 성능을 보이는 Qwen3 양자화 모델을 제공한다고 밝혔습니다. 또한, 주요 LLM 프레임워크인 transformers, llama.cpp, vLLM, SGLang, Ollama 등에서 Qwen3를 지원하기 위해 사전에 패치 작업을 진행하는 등 개발자 생태계 지원에 많은 노력을 기울였습니다. Qwen-Agent 프레임워크는 Qwen3의 향상된 도구 호출 및 에이전트 기능을 최대한 활용할 수 있도록 지원하여 코딩 복잡성을 줄여줍니다. 이러한 노력은 Qwen3가 출시와 동시에 광범위한 개발자 커뮤니티와 도구 생태계에 빠르게 통합될 수 있도록 기여했습니다.

제한 사항 및 향후 계획: 일부 사용자들은 특정 작업(예: 물리 문제 해결, 특정 코딩 작업)에서 Qwen3가 기대만큼의 성능을 내지 못하거나 다른 모델보다 부정확한 답변을 생성하는 경우를 보고했습니다. 벤치마크 결과는 실제 사용 환경에서의 성능을 완벽하게 반영하지 못할 수 있으며, 특정 벤치마크(예: LiveCodeBench)는 오염(Contamination) 문제로부터 자유롭지 않을 수 있다는 점도 고려해야 합니다. Qwen 팀은 향후 데이터 규모 확장, 모델 크기 증가, 컨텍스트 길이 연장, 모달리티 확장, 장기 추론을 위한 강화 학습 발전 등 다양한 측면에서 모델을 개선하여 AGI(인공 일반 지능)ASI(인공 초지능)를 향한 목표를 지속적으로 추구할 계획이라고 밝혔습니다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 152
heart