
Deepseek 3.2, 수학 올림피아드 금메달이 우리 일에 의미하는 것

첫 오픈소스 'IMO 금메달' 모델, 왜 체감이 다를까
회사에서 쓰는 AI는 아직 GPT 계열 위주인데, 뉴스에서는 Deepseek 3.2가 국제 수학 올림피아드 금메달을 땄다는 이야기가 들립니다. 이런 소식이 재미있는 기술 자랑으로만 느껴지면, 정작 업무와 비즈니스에 들어올 타이밍을 놓치기 쉽습니다.
Deepseek 3.2는 단순히 점수가 높은 모델이 아니라, 처음으로 수학 올림피아드에서 금메달급 성적을 낸 오픈소스라는 점이 핵심입니다. 폐쇄형 프런티어 모델인 GPT5 High나 Gemini 3.0 Pro와 비교해도 수학·코딩 벤치마크에서 비슷하거나 일부는 앞서며, 특히 3.2 Special 버전은 더 많은 토큰을 쓰는 대신 최고 수준의 추론 성능을 보여줍니다. 제 기준에서는 "클라우드에서 빌려 쓰는 비싼 두뇌"와 "직접 데려와서 키울 수 있는 두뇌" 사이의 격차가 처음으로 의미 있게 줄어든 순간에 가깝습니다.
한국 개발자와 스타트업, 그리고 데이터가 민감한 기업에게는 이 지점이 결정적입니다. 지금까지는 최고 수준의 추론이 필요하면 어쩔 수 없이 해외 빅테크 API를 쓰는 구조였습니다. Deepseek 3.2는 여전히 거대한 모델이지만, 오픈 가중치와 MIT 라이선스로 공개되어 이 구조를 조금씩 뒤집는 출발선 역할을 합니다. 다만 누구에게나 당장 유용한 변화라고 보기는 어렵습니다. GPU를 직접 운용할 여력이 없는 팀에는 아직 먼 이야기일 수 있습니다.
프런티어 성능, 그러나 '값싼 프런티어'는 아니다
많은 사람이 착각하기 쉬운 지점이 있습니다. 오픈소스가 프런티어를 따라잡았다는 뉴스가 나오면, 곧바로 "싸고 좋다"를 떠올립니다. Deepseek 3.2는 6710억 파라미터 MoE 구조로 설계됐고, 실제 추론 시에는 370억 파라미터만 활성화됩니다. FP8 기준 약 700GB, BF16 기준 1.3TB VRAM이 필요합니다. 숫자만 봐도 개인이나 소규모 팀이 곧바로 로컬에서 돌리기에는 무리입니다.
다만 여기서 중요한 포인트는 "절대 성능을 싸게 만든다"가 아니라 "같은 계산량으로 더 높은 성능을 끌어낸다"는 방향입니다. 같은 프런티어 급 성능을 내기 위해 필요한 예산과 인력이 줄어들면, 결국 몇 년 뒤에는 더 작은 모델에도 이 효율성이 내려옵니다. 제 기준에서는 아직은 구경 단계이지만, 곧 '중형 모델' 라인업에서 진짜 체감 효율이 터질 전조에 가깝습니다.
한국 기업에게 열린 새로운 협상 카드
국내 기업 입장에서 이 변화는 미묘하지만 중요한 협상 카드입니다. 지금까지는 프런티어급 추론 성능 옵션이 사실상 특정 회사들로 제한됐습니다. 이제 Deepseek처럼 오픈소스가 일정 수준 이상 올라오면, API 도입이나 장기 계약을 논의할 때 "대체 옵션"이 존재한다는 것만으로도 가격과 조건이 달라질 수 있습니다. 반대로, 클라우드 없이 자사 데이터센터를 고집하는 기업에게는 아직 장비 투자 부담이 지나치게 큽니다. 이 경우에는 최신 오픈소스를 무리해서 직접 올리기보다, 당분간 관리형 서비스와 중형 모델 조합이 더 현실적입니다.
Deepseek sparse attention과 RL, 진짜 게임 체인저는 무엇인가
많은 사람이 벤치마크 숫자를 먼저 보지만, 실무에서 체감되는 변화는 보통 아키텍처와 학습 방식에서 나옵니다. Deepseek 3.2도 겉으로는 수학·코딩 점수가 눈에 띄지만, 실제로는 세 가지 기술적 축이 앞으로의 AI 사용 방식을 바꾸는 쪽에 가깝습니다.
DSA가 여는 긴 문맥의 현실화
첫 번째 축은 Deepseek Sparse Attention, DSA입니다. 기존 트랜스포머의 어텐션 연산은 토큰 길이 L에 대해 L²에 비례해 계산이 늘어납니다. 문서가 두 배 길어지면 계산량은 네 배로 튀어오르는 구조입니다. DSA는 이를 L×K 수준으로 줄입니다. 쉽게 말해, 모든 토큰이 서로를 다 쳐다보는 대신, 중요한 부분만 뽑아 보게 만든 구조입니다.
이 변화는 추상적인 수식이 아니라, 실무에서 다루는 긴 문서를 어떻게 처리할 수 있느냐의 문제와 연결됩니다. 수십 페이지짜리 계약서나 거대한 코드베이스를 모델에 그대로 넣고도 속도를 어느 정도 유지할 수 있다면, "조각 내서 요약"하는 임시방편에서 벗어나는 계기가 됩니다. 저라면 장기적으로 이 계열 기술이 RAG나 벡터 검색의 설계를 바꾸리라 봅니다. 지금처럼 쪼개서 검색하고 이어 붙이는 방식이 아니라, 훨씬 큰 맥락을 한 번에 읽긴 읽되, 비용을 억제하는 쪽으로 흐름이 이동할 가능성이 높습니다.
RL에 전체 예산의 10% 이상을 쓴다는 뜻
두 번째 축은 강화학습 규모입니다. Deepseek 3.2는 프리트레이닝 비용의 10%가 넘는 계산량을 RL에 투입했다고 공개했습니다. 숫자만 보면 작은 비율처럼 느껴질 수 있지만, 프런티어 모델의 프리트레이닝 비용 자체가 워낙 크기 때문에, 10%만 떼어도 이전 세대 전체 예산에 맞먹는 수준이 됩니다.
이 투자는 결국 "문제를 스스로 풀어보고 피드백을 받는 단계"에 무게를 실었다는 의미입니다. 그래서 동일한 파라미터와 데이터 양에서도, 추론 과정에서의 안정성과 도구 사용 능력이 올라갑니다. 제 기준에서는 이 부분이 수학 올림피아드 금메달보다 더 현실적인 시그널입니다. 앞으로 고성능 모델은 학습 데이터 양보다 "얼마나 체계적으로 스스로 연습했는가"가 경쟁 포인트가 될 가능성이 높습니다.
에이전트용 합성 데이터, 인간 라벨링 시대의 균열
세 번째 축은 '에이전트용 합성 데이터 파이프라인'입니다. Deepseek 팀은 1800개가 넘는 환경과 8만 5천 개 수준의 복잡한 프롬프트를 자동으로 만들어, 에이전트형 작업에 특화된 RL 데이터를 쌓았습니다. 핵심은 모델이 스스로 도구를 고르고, 순서를 짜고, 실패를 경험하며 다시 시도하는 과정을 대규모로 시뮬레이션했다는 점입니다.
여기서 많이들 놓치는 지점이 있습니다. 이 방식이 고도화될수록 "인간이 라벨링한 데이터"의 중요성이 상대적으로 떨어질 수 있습니다. 간단한 분류·요약 태스크 라벨링으로는 프런티어 모델의 에이전트 능력을 따라잡기 어렵습니다. 한국에서 데이터 라벨링 비즈니스를 하는 입장에서는 장기적으로는 비즈니스 모델 재구성이 필요해지는 신호입니다. 반대로, 사내 시스템과 툴을 많이 보유한 기업에게는 기회입니다. 자체 업무 환경을 RL 학습용 시뮬레이션으로 만들 수 있다면, Deepseek식 접근을 축소판으로 따라 하는 것도 기술적으로 가능하기 때문입니다.
한국 개발자와 조직이 당장 볼 수 있는 기회와 착시
새 모델이 나올 때마다 PoC 프로젝트를 떠올리는 팀이 많습니다. 하지만 모든 기술이 모든 팀에 같은 의미를 주지는 않습니다. Deepseek 3.2도 마찬가지입니다.
누가 먼저 움직이면 좋은가
이 변화에서 가장 이득을 보는 쪽은 두 부류입니다. 첫째, 이미 GPU 클러스터를 보유하고 있거나, 클라우드에서 대용량 GPU 인스턴스를 장기적으로 쓸 예산이 있는 조직입니다. 이들은 폐쇄형 API에만 의존하던 구조에서 벗어나, 오픈 모델을 커스터마이즈하는 전략을 현실적으로 검토할 수 있습니다. 둘째, 에이전트형 서비스나 개발툴, 자동화 SaaS를 만들려는 스타트업입니다. 툴 사용과 멀티스텝 추론에 특화된 오픈소스를 바탕으로, 자신들만의 워크플로와 RL 루프를 추가하는 전략이 가능해집니다. 제 기준에서는 이런 팀들이 Deepseek 3.2의 가장 직접적인 수혜자입니다.
반대로, 단순 챗봇이나 FAQ, 요약·번역 수준에서 AI를 쓰려는 기업에는 과투자일 수 있습니다. 이 경우에는 여전히 소형·중형 폐쇄형 모델이나 경량 오픈소스 조합이 비용 대비 효율이 더 좋습니다. "세계 1위 벤치마크 모델을 쓴다"는 사실 자체가 비즈니스 가치를 직접 만들지는 않습니다.
현실적으로 지금 할 수 있는 첫 행동
새로운 프런티어 모델이 나올 때마다 가장 위험한 패턴은 두 가지입니다. 하나는 흥분해서 바로 도입 검토 태스크포스를 만드는 경우이고, 다른 하나는 "어차피 우리랑 상관없다"며 완전히 무시하는 경우입니다. 둘 다 장기적으로 리스크입니다.
현실적인 첫 행동은 훨씬 단순합니다. 우선, 자사 업무에서 "긴 문맥과 복잡한 추론이 동시에 필요한 영역"이 어디인지 찾아보는 것이 좋습니다. 예를 들어, 장기 계약 검토, 복잡한 규제 문서 해석, 대규모 코드 리팩토링 지원 같은 영역입니다. 그런 다음, 이 영역에 대해 지금 사용하는 모델이 어디에서 한계를 보이는지 구체적으로 적어보는 것이 중요합니다. 속도인지, 비용인지, 추론 안정성인지, 도구 사용 능력인지 구분해야 합니다.
그 이후에야 Deepseek 3.2 같은 프런티어 오픈소스를 시험해 볼 이유와 우선순위가 선명해집니다. 클라우드에서 제공되는 데모나 API를 통해 제한된 범위에서 비교 테스트를 돌리고, 실제로 우리 업무에서 "한계를 넘겨주는 지점"이 있는지 확인하는 것이 좋습니다. 이 과정에서 특별한 개선이 보이지 않는다면, 당분간은 기존 상용 모델과 워크플로 개선에 집중하는 편이 낫습니다. 반대로 분명한 차이가 보인다면, 그때 가서 GPU 인프라 전략이나 벤더 조합을 다시 그려도 늦지 않습니다.
Deepseek 3.2가 맞지 않는 사람, 그리고 전략을 세울 때의 기준선
새 기술이 등장할 때마다 가장 중요한 질문은 결국 하나입니다. "우리에게 이게 지금, 얼마나, 어떤 형태로 필요한가"입니다. Deepseek 3.2도 예외가 아닙니다.
과장과 냉소 사이에서 잡아야 할 균형
Deepseek 3.2의 오픈소스 공개는 업계 전체 관점에서는 큰 전환점에 가깝습니다. 그러나 개인 개발자나 영세 사업자에게는 당장 체감되는 변화가 아닐 수 있습니다. GPU 한 대도 제대로 쓰기 어려운 환경에서, 수백 기가바이트 VRAM을 요구하는 모델을 직접 다루는 것은 사실상 불가능에 가깝습니다. 이 경우에는 굳이 자격지심을# Deepseek 3.2, 수학 올림피아드 금메달이 우리 일# Deepseek 3.2, 수학 올림피아드 금메달이 우리 일과 데이터 의존도를 줄일 수 있을지도 모르는 카드"입니다. 다만 즉시 폐쇄형 모델을 모두 치환할 수 있는 수준으로 보기는 어렵습니다. 특히 보안·컴플라이언스 요구사항이 높고, 내부 인력이 아직 대규모 모델 운영 경험이 부족한 조직에서는 리스크가 큽니다. 이 경우에는 전체 전환이 아니라, 특정 업무나 내부 연구 프로젝트부터 제한적으로 적용해 보는 편이 현실적입니다.
지금 세워야 할 최소한의 전략
현 시점에서 가장 합리적인 접근은 기술 도입이 아니라 "판단 기준"을 미리 만들어 두는 일입니다. 예를 들어, 우리 조직에서 프런티어 오픈소스를 본격적으로 고려할 기준을 세 가지 정도로 정해둘 수 있습니다. 중형 모델로는 도저히 해결되지 않는 업무 문제가 분명히 존재할 것, GPU 인프라 또는 클라우드 예산의 상한과 ROI 목표가 숫자로 정의될 것, 그리고 모델 운영·커스터마이징을 맡을 최소 인력이 확보될 것입니다.
이 기준이 정리되어 있으면, Deepseek 3.2가 아니더라도 다음 세대 오픈소스 프런티어가 나왔을 때 훨씬 빠르게 판단할 수 있습니다. 제 기준에서는 지금 이 시기에 중요한 것은 "어떤 모델이 최고냐"보다 "우리 조직이 어떤 모델을 선택할 준비가 되어 있느냐"입니다. 기술은 계속 바뀌지만, 판단 기준과 전략은 한 번 만들어두면 여러 세대를 통과해서 쓸 수 있기 때문입니다.
출처 및 참고 :
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
