Deepseek v3.2와 Mistral Large 3, 지금 써볼 만한 오픈 LLM인가

오픈소그 대가 들의 귀환, 왜 다시 주목받나

챗GPT를 쓰던 사람도 어느 순간 묻습니다. 이 돈 내면서 계속 쓸 이유가 있을까. 마침 Deepseek v3.2와 Mistral Large 3가 나왔습니다. 둘 다 오픈 계열입니다. 한때 가장 기대를 모았던 회사들이 다시 전면에 등장한 셈입니다.

Deepseek는 V3와 R1로 이름을 알렸습니다. 중국발 모델이지만 성능과 가격 비율이 극단적으로 좋았습니다. Mistral은 서구권에서 드물게 오픈 정책을 내세웠던 회사였습니다. 다만 대형 모델을 닫아 버리고 비허용적 라이선스를 밀어 붙이면서 실망을 남겼습니다. 이번 Large 3와 신규 미니 라인업은 그때 잃은 신뢰를 되찾을 수 있을지 시험대에 오른 상황입니다.

표면만 보면 두 회사 모두 벤치마크 그래프를 들이밀며 SOTA를 주장합니다. 하지만 비교 대상이 미묘합니다. 진짜 강자 대신 애매한 모델들만 골라 놓은 인상입니다. 제 기준에서는 이 지점부터 이미 메시지가 말해 줍니다. "우리는 아직 절대 강자는 아니다. 그래도 써 줄 사람은 있다."

Deepseek v3.2 Speciale, '생각 많은' 모델의 등장

이번 Deepseek v3.2에서 가장 흥미로운 지점은 'Speciale'라는 별도 체크포인트입니다. 아예 Reasoning 전용 모델입니다. 학습 과정에서 길이 패널티를 풀어 주고, 답을 길게 늘어뜨리는 습관을 의도적으로 허용했습니다. 사람으로 치면 "먼저 충분히 생각해 봐"라고 키운 셈입니다.

이 접근은 요즘 R1 계열로 대표되는 추론 특화 트렌드와 맞닿아 있습니다. 코드나 수학처럼 중간 사고 과정이 긴 작업에서는 토큰을 아끼는 것보다 생각을 늘리는 쪽이 유리합니다. 다만 이 Speciale은 아직 거칠다는 평가가 나옵니다. 코드가 자주 깨지고, API에서는 답을 끝까지 못 마치는 경우가 있다는 보고도 있습니다.

그럼에도 독립된 Reasoning 체크포인트를 공개했다는 점은 의미가 큽니다. 상용 비공개 모델들이 "우리는 알아서 잘 생각해 준다"라고 말하는 것과 달리, 어떤 설정을 손봤고 어떤 대가를 치르는지 비교적 투명하게 드러나기 때문입니다. 실제로 깊은 추론이 필요한 사람에게는 불안정해도 충분히 탐색해 볼 만한 놀이감입니다. 반대로 짧고 정확한 답이 중요한 실무 환경에서는 아직 Experimental에 가깝습니다.

Mistral Large 3, '좋지만 애매한' 범용형

Mistral Large 3는 명확하게 Reasoning 모델이 아닙니다. Mixture-of-Experts 구조를 채택했지만, 설계 방향은 빠른 범용 응답에 가깝습니다. 코드, 글쓰기, 요약, 툴 콜링 등 전반적인 사용성을 노린 구성이며, 실제로 도구 호출은 꽤 안정적이라는 평이 많습니다.

문제는 창의적 코드 생성이나 복잡한 작업에서 드러납니다. 3D 플로어플랜, 3JS, SVG, 블렌더 스크립트, 수학 문제 같은 벤치마크에서 결과가 상당수 실패입니다. 완전히 못 쓰는 수준은 아니지만, GLM이나 Minimax, Kimi 같은 강력한 대안과 비교하면 굳이 선택할 이유가 줄어듭니다. 솔직히 말해 성능만 보면 "조금 저렴한 GPT-4 계열" 정도 기대를 하게 되는데, 그 기대에는 다소 못 미칩니다.

DSA와 MoE, 결국 '돈과 시간'의 문제

많은 사람이 모델 이름과 파라미터 수에만 집중합니다. 실제로 체감되는 차이는 더 단순합니다. 얼마나 싸게, 얼마나 빠르게, 얼마나 길게 쓸 수 있느냐입니다. Deepseek와 Mistral의 이번 세대는 이 세 가지를 기술적으로 정면 겨냥합니다.

Deepseek Sparse Attention, 긴 문맥의 가격을 깎는 방식

Deepseek v3.2의 핵심은 DSA, 즉 Deepseek Sparse Attention입니다. 기존 트랜스포머는 토큰 수가 늘어나면 연산량이 폭발적으로 증가했습니다. 그래서 100K 컨텍스트를 열어 준다면서, 막상 길게 쓰면 속도와 비용이 감당이 안 되는 경우가 많았습니다.

DSA는 모든 토큰을 똑같이 보지 않습니다. 라이트닝 인덱서라는 구조를 통해 '지금 중요해 보이는 토큰'만 골라 집중합니다. 마치 방 안에 있는 사람 전원을 뚫어지게 보는 대신, 대화 상대와 주변 몇 명만 유심히 지켜보는 방식입니다. 이 덕분에 128K 같은 초장문 맥락도 비교적 싼 비용으로 처리할 수 있습니다.

국내 기준으로 보면, 문서 작업이 많은 직장인과 연구자에게 의미가 큽니다. 회의록, 보고서, 계약서처럼 수십 페이지가 넘는 자료를 한 번에 던지고 분석시키려는 사람에게는 큰 무기입니다. 반대로 짧은 질의응답 위주 사용자라면 이 구조가 주는 이득이 거의 없습니다. 긴 문맥을 적극적으로 사용할 계획이 없다면, 단순 벤치마크 수치만 보고 v3.2를 선택할 이유는 줄어듭니다.

Mixture-of-Experts, '거대한데 가벼운 척'하는 구조

Mistral Large 3는 총 645B 파라미터라는 숫자를 내세웁니다. 대신 매 토큰마다 41B 정도만 활성화되는 MoE 구조입니다. 즉, 거대한 모델을 여러 전문가 집단으로 쪼개 두고, 매번 일부만 부르는 셈입니다.

이 방식의 장점은 분명합니다. 이론상 거대한 표현력을 유지하면서도 추론 비용을 줄일 수 있습니다. 단점도 명확합니다. 라우팅이 꼬이면 엉뚱한 전문가가 호출되고, 결과 품질이 들쭉날쭉해집니다. 실제 벤치마크에서도 코드와 복잡한 생성 작업에서 이 들쭉날쭉함이 드러납니다. 제 기준에서는 이 구조가 아직 "매우 안정적이다"라고 보긴 어렵습니다.

국내 스타트업이나 프리랜서 개발자에게는 이 모순이 중요합니다. 클라우드 크레딧이 빠르게 녹아내리는 상황에서, 저렴한 MoE 기반 모델은 매력적입니다. 하지만 프로젝트 마감이 촉박한 시점에는 한 번에 믿고 올릴 수 있는 품질이 더 중요합니다. 가격 절감과 리스크 관리 중 어디에 무게를 둘지부터 정해야 합니다.

실제 사용자의 선택 기준, 누가 써야 이득일까

사람마다 LLM을 쓰는 이유가 다릅니다. 그래서 "이 모델이 최고"라는 말은 거의 의미가 없습니다. Deepseek v3.2와 Mistral Large 3도 마찬가지입니다. 어느 쪽도 만능이 아니며, 특정 유형의 사용자에게만 분명한 장점이 드러납니다.

개발자와 메이커, 코드 품질부터 냉정하게

개발자와 노코드 메이커 입장에서는 코드 생성 품질이 핵심입니다. 이번 테스트 결과만 놓고 보면, 고난도 코드 작업에서 두 모델 모두 허점이 많습니다. 3D, 게임, 그래픽, 복잡한 Rust CLI, 블렌더 스크립트에서 실패가 반복됩니다. 일부 예제에서 Deepseek가 잘 만든 체스보드처럼 인상적인 성공 사례도 있지만, 전체적으로는 "복불복"에 가깝습니다.

그래서 리스크를 나누는 전략이 필요합니다. 빡센 프로덕션 코드는 여전히 GPT-4.1 계열이나 검증된 상용 모델에 맡기고, 프로토타이핑과 러프한 구조 설계, 자동 문서화에는 Deepseek나 Mistral을 쓰는 식입니다. 저라면 협업 프로젝트의 마감이 걸린 상황에서 이 두 모델만 믿고 코드를 생성하지는 않겠습니다.

비개발자, 긴 문서와 도구 호출 중심 사용이라면

비개발자에게는 다른 기준이 더 중요합니다. 긴 문서를 한 번에 던지고 요약과 인사이트를 받고 싶다면 DSA를 채택한 Deepseek v3.2 쪽이 유리합니다. 특히 리서치 정리, 회의록 요약, 계약서 검토처럼 맥락 길이가 곧 효율로 이어지는 작업일수록 체감 차이가 생깁니다.

반대로 외부 툴과 연동한 작업, 예를 들어 캘린더, CRM, 사내 업무 시스템을 LLM으로 묶어 쓰려는 사람에게는 Mistral 계열이 의미가 있습니다. 툴 콜링 품질이 괜찮고, 이미 여러 플랫폼에서 OpenRouter 등으로 통합되어 있기 때문입니다. 다만 한국어 품질과 로컬라이징은 여전히 상용 폐쇄 모델보다 한 단계 아래라는 점을 감안해야 합니다.

시작 전 반드시 점검할 것

현실적 제약, 과대기대보다 용도 분리를

새로운 오픈 LLM이 나올 때마다 "이걸로 이제 GPT 안 써도 되겠다"라는 기대가 따라붙습니다. 하지만 Deepseek v3.2와 Mistral Large 3의 상태를 보면, 당장 완전 대체를 기대하기는 이릅니다. 벤치마크 점수는 인상적이지만, 실제 과제에서 보이는 불안정성이 여전히 큽니다. Reasoning 특화 모델인 Speciale도 마찬가지입니다. 깊게 생각해 주지만, 그 생각이 항상 실행 가능한 코드나 수식으로 떨어지지는 않습니다.

또 하나의 함정은 한국 환경에서의 체감 차이입니다. 영어 벤치마크에서는 상위권에 이름을 올리지만, 한국어 문맥에서는 답변 스타일이 어색하거나 미묘하게 틀린 정보를 섞는 경우가 있습니다. 비용 절감을 위해 완전 전환을 했다가, 품질 이슈를 뒤늦게 발견하는 상황을 피해야 합니다.

첫 번째 행동, 작은 영역부터 실험용으로 투입

현실적으로는 단계적 도입이 가장 안전합니다. 먼저 일상적인 요약과 정리 작업에 Deepseek v3.2를 투입합니다. 리포트, 회의록, 레퍼런스 문서를 몰아 넣고 긴 컨텍스트의 이점을 체감해 보는 것이 좋습니다. 그다음 코드 영역에서는 부수적인 스크립트, 내부 도구, 개인 프로젝트부터 Mistral Large 3나 Deepseek를 섞어 쓰는 방식이 유효합니다.

프로덕션에 바로 올릴 코드는 여전히 검증된 상용 모델에 맡기고, 오픈 모델은 실험과 비용 절감용 서브 엔진으로 두는 구성이 안전합니다. 시간이 지나면서 품질과 안정성이 스스로 검증된다면, 그때 비로소 범위를 넓히는 편이 리스크 관리 측면에서 낫습니다. 제 기준에서는 이번 세대 오픈 모델은 "완전 대체"가 아니라 "현명한 분담"의 시점에 와 있습니다. 이 인식만 갖고 시작해도, 기대와 현실 사이의 간극에서 받는 스트레스가 훨씬 줄어들 것입니다.

출처 및 참고 :