메인 콘텐츠로 건너뛰기

DeepSeek V3.2 정식 출시: 중국 오픈소스가 GPT-5와 맞붙다

요약

12월 1일, 중국 AI 연구소 DeepSeek이 V3.2와 V3.2-Speciale 두 모델을 동시에 공개했다. 9월에 실험 버전으로 선보였던 V3.2-Exp의 정식 후속작이다. DeepSeek은 V3.2가 OpenAI의 GPT-5와 동급 성능을, V3.2-Speciale은 Google의 Gemini 3.0 Pro에 필적하는 추론 능력을 갖췄다고 주장한다.

가장 주목할 점은 이 모델들이 MIT 라이선스로 Hugging Face에 완전 공개됐다는 사실이다. 누구나 다운로드하고, 수정하고, 상업적으로 활용할 수 있다. 프론티어급 성능을 주장하는 모델이 이 정도로 열린 조건으로 풀린 건 이례적이다.

올림피아드 4관왕, 오픈소스가 해냈다

V3.2-Speciale의 벤치마크 성적은 상당히 인상적이다. DeepSeek에 따르면 이 모델은 2025년 국제수학올림피아드(IMO), 국제정보올림피아드(IOI), ICPC 세계 결승, 중국수학올림피아드(CMO)에서 모두 금메달 수준의 성적을 기록했다.

구체적인 수치를 보면, AIME 2025 수학 벤치마크에서 96.0%를 달성해 Gemini 3.0 Pro의 95.0%, GPT-5 High의 94.6%를 앞섰다. HMMT 2025에서는 99.2%로 Gemini 3.0 Pro(97.5%)와 격차를 더 벌렸다. 코딩 분야에서도 CodeForces 레이팅 2701을 기록하며 GPT-5 High(2537)를 크게 앞질렀다.

물론 이 수치들은 DeepSeek 자체 평가 결과다. 독립적인 검증이 이뤄져야 정확한 판단이 가능하겠지만, 오픈소스 모델이 이 정도 숫자를 내놓은 것 자체가 의미 있다.

핵심 기술: DeepSeek Sparse Attention

V3.2의 기술적 핵심은 DeepSeek Sparse Attention(DSA)이다. 기존 트랜스포머 모델들은 모든 토큰 간의 관계를 계산하느라 컨텍스트가 길어질수록 연산 비용이 제곱으로 증가했다. DSA는 이 문제를 정면으로 공략한다.

작동 방식은 이렇다. Lightning Indexer가 먼저 쿼리 토큰과 이전 토큰들 사이의 중요도 점수를 계산한다. 그다음 상위 k개의 토큰만 선택해서 실제 어텐션 연산을 수행한다. 결과적으로 연산 복잡도가 O(L²)에서 O(Lk)로 줄어든다. k가 전체 시퀀스 길이 L보다 훨씬 작으니 효율이 크게 개선된다.

DeepSeek은 이 기술 덕분에 128K 컨텍스트 윈도우를 훨씬 낮은 비용으로 처리할 수 있게 됐다고 설명한다. 미국 빅테크처럼 H100 클러스터를 대규모로 확보하기 어려운 상황에서 효율성 최적화에 집중한 결과물이다.

후속 훈련에 파격 투자

또 하나 눈에 띄는 부분은 후속 훈련(post-training)에 대한 투자 규모다. DeepSeek은 사전 훈련 비용의 10% 이상을 후속 훈련에 투입했다고 밝혔다. 업계 평균을 크게 웃도는 수준이다.

후속 훈련 과정에서는 전문 모델들이 훈련 데이터 생성에 동원됐다. 수학, 프로그래밍, 논리적 추론, 에이전트 작업 등 6개 영역별로 특화된 모델들이 고품질 데이터를 만들어냈다. 이렇게 생성된 데이터로 GRPO 알고리즘을 활용한 강화학습을 진행했다.

에이전트 훈련을 위해서는 대규모 합성 데이터 파이프라인도 새로 구축했다. 1,827개의 서로 다른 환경과 85,000개 이상의 복잡한 지시문을 자동 생성했다. 에이전트가 다양한 상황에서 도구를 활용하며 문제를 해결하는 능력을 키우기 위한 투자다.

Thinking in Tool-Use: 에이전트 시대를 위한 설계

V3.2에서 DeepSeek이 업계 최초라고 강조하는 기능이 있다. Thinking in Tool-Use, 즉 추론 과정과 도구 사용의 통합이다.

기존 모델들은 생각하는 것과 도구를 쓰는 것이 분리돼 있었다. 먼저 생각을 마치고, 그다음 도구를 호출하는 식이다. V3.2는 이 두 과정을 하나로 엮었다. 추론을 진행하면서 동시에 외부 도구를 호출하고, 그 결과를 다시 추론에 반영한다.

이 기능은 thinking 모드와 non-thinking 모드 양쪽에서 모두 도구 사용을 지원한다. 복잡한 에이전트 워크플로우에서 모델이 계획을 세우고, 실행하고, 결과를 평가하는 전체 과정을 더 자연스럽게 처리할 수 있게 된다.

접근성과 한계

V3.2는 DeepSeek 앱, 웹, API 세 채널 모두에서 바로 사용할 수 있다. 반면 V3.2-Speciale은 12월 15일까지만 임시 API 엔드포인트로 제공된다. 가격은 V3.2와 동일하지만 도구 호출 기능은 지원하지 않는다.

이런 제한적 공개는 추론 비용 때문으로 보인다. Speciale은 최고 수준의 추론 성능을 위해 훨씬 많은 토큰을 소모한다. 현재 가격 체계로는 대중에게 지속적으로 서비스하기 어려운 것이다. DeepSeek도 이 모델을 "연구 피크"로 포지셔닝하고 있다.

성능 면에서도 아직 갭이 있다. DeepSeek 스스로 V3.2가 지식의 범위, 토큰 효율성, 복잡한 작업 수행 능력에서 상용 모델에 뒤처진다고 인정했다. 더 많은 사전 훈련을 통해 이 격차를 좁히겠다는 계획이다.

오픈소스 AI 경쟁의 새 국면

DeepSeek V3.2의 출시는 AI 업계 지형에 몇 가지 질문을 던진다.

첫째, 오픈소스가 정말 프론티어급에 도달할 수 있는가? DeepSeek의 주장이 독립 검증을 통과한다면, 폐쇄형 모델만이 최고 성능을 낼 수 있다는 통념이 흔들린다.

둘째, 효율성 최적화가 자원 격차를 얼마나 상쇄할 수 있는가? DSA 같은 기술이 하드웨어 제약을 극복하는 경로를 보여준다면, AI 개발의 진입 장벽이 낮아질 수 있다.

셋째, 에이전트 AI의 방향성은 어디로 향하는가? Thinking in Tool-Use 같은 접근이 표준이 된다면, AI가 단순 응답을 넘어 실제 작업을 수행하는 시대가 더 빨리 올 수 있다.

벤치마크 숫자만으로 모든 걸 판단할 순 없다. 하지만 중국 오픈소스가 미국 빅테크의 최신 모델들과 같은 테이블에 앉아 비교되기 시작했다는 사실 자체가 의미 있다. 앞으로의 독립 평가 결과와 실제 사용 경험이 이 모델의 진짜 가치를 판가름하게 될 것이다.