MiniMax M2.5 정리 (초저가 고속 모델)
한 줄 요약
코딩·에이전트(툴콜/서치)·오피스 작업을 "현실 업무 환경"에서 굴리기 위해 속도와 비용을 극단적으로 낮춘 생산성 지향 모델. 1
MiniMax M2.5는 “시간당 US$1로 100토큰/초” 등 초저가·고속을 전면에 내세워 상시 에이전트의 경제성을 크게 높였다고 밝힌다(벤더 발표 기준)
무엇이 새로 나왔나(포지셔닝/목표)
M2.1의 코딩 강점을 유지하면서, Word/Excel/PowerPoint 같은 오피스 산출물 생성·조작까지 학습 범위를 확장했다. 12
복잡한 디지털 업무 환경에서 강화학습(RL)로 훈련해, "정답"뿐 아니라 작업 분해·계획·행동(툴 사용)을 더 효율적으로 하도록 유도했다. 1
동일 능력의 2개 제공 형태(M2.5 vs M2.5‑Lightning)로, 지연/비용 요구에 맞춰 고를 수 있게 했다. 1
핵심 성능 지표(공식 수치)
SWE‑Bench Verified: 80.2% 12
참고 : Claude opus 4.6 이 80.8%
Multi‑SWE‑Bench: 51.3% 12
BrowseComp: 76.3% (with context management) 1
SWE‑Bench Verified 평가 런타임: 31.3분(M2.1) → 22.8분(M2.5), 37% 개선 1
평균 토큰/태스크: 3.72M(M2.1) → 3.52M(M2.5) 1

강점: 코딩 / 에이전트(툴콜·서치) / 오피스 작업
코딩: 여러 언어·플랫폼의 "전체 개발 사이클(설계→구현→리뷰/테스트)"을 목표로 하고, 코드 작성 전 요구사항/구조를 먼저 정리하는 경향(스펙 작성)을 강화했다. 1
에이전트/서치: BrowseComp 등에서 고성능을 내면서, 불필요한 탐색 라운드와 토큰을 줄이는 방향으로 학습됐다(공식 발표: 라운드 약 20% 감소). 1
오피스: 단순 요약이 아니라 제출 가능한 문서/슬라이드/스프레드시트 결과물을 겨냥해, 도메인 전문가 피드백을 학습 파이프라인에 넣었다. 1
효율: 속도(TPS), 토큰 효율, 비용(가격·예시)
처리량(서빙 기준): Lightning 100 tokens/s, M2.5 50 tokens/s 1
가격(공식): M2.5‑Lightning 입력 $0.3/M, 출력 $2.4/M. M2.5는 그 절반(입력 $0.15/M, 출력 $1.2/M). 12
시간당 비용 요지(공식): "$1/시간 at 100 tokens/s", "$0.30/hour at 50 tokens/s". 1
토큰 효율: SWE‑Bench 기준 평균 3.52M tokens/task로 이전 대비 감소. 1
캐싱 지원: 두 버전 모두 caching 지원(장문/반복 프롬프트 비용 최적화 여지). 1
제공 형태(M2.5 vs M2.5-Lightning)와 선택 가이드
공통: "능력은 동일, 속도와 가격만 다름"이 공식 설명이다. 1
M2.5‑Lightning(100 TPS): 대화형 에이전트, IDE 실시간 보조, 서치/툴 루프를 빠르게 돌려야 하는 UX에 적합.
M2.5(50 TPS, 절반 가격): 배치성 코드리뷰/리팩터링, 백그라운드 문서 생성, 대규모 동시 실행처럼 비용이 더 중요한 워크로드에 적합.
컨텍스트: OpenRouter 기준 204.8K(≈205K) 컨텍스트로 표기된다. 2
실무 활용 아이디어
코딩 에이전트: 이슈/버그 재현→수정안 생성→테스트 실행→PR 설명 작성까지 "루프형" 자동화에 붙이기.
검색 기반 리서치: 검색 결과 수집뿐 아니라, 정보 밀도가 높은 페이지를 여러 번 왕복하며 근거를 정리하는 작업에 배치. 1
오피스 자동화: 보고서 초안(Word) + 발표자료(PPT) + 수치 모델(Excel)을 한 작업 흐름으로 묶고, 중간 산출물을 파일로 저장·갱신하는 형태로 설계.
주의/확인할 점
BrowseComp 76.3%는 "with context management" 조건이 붙어 있다. 컨텍스트 관리(요약/압축/메모리 전략) 유무에 따라 재현 성능이 달라질 수 있다. 1
SWE‑Bench 런타임·토큰/태스크는 "에이전트 하네스/도구 구성" 영향을 크게 받는다. 내부 파이프라인과 다르면 속도·비용이 바뀔 수 있다. 1
205K급 컨텍스트를 항상 꽉 채우는 방식은 비용·지연을 키운다. 캐싱, 요약 메모리, 작업 단위 분할을 함께 설계하는 편이 안전하다. 12
참고
1MiniMax M2.5 공식 발표 - Built for Real-World Productivity
2OpenRouter - MiniMax M2.5(컨텍스트/가격 표기) [^3]: InfoQ - Claude Sonnet 4.5 Tops SWE-Bench Verified(77.2%, Sonnet 4 72.7% 언급)