조회수 16•2026-02-14

MiniMax M2.5 정리 (초저가 고속 모델)

요약

한 줄 요약

코딩·에이전트(툴콜/서치)·오피스 작업을 "현실 업무 환경"에서 굴리기 위해 속도와 비용을 극단적으로 낮춘 생산성 지향 모델. ¹

MiniMax M2.5는 “시간당 US$1로 100토큰/초” 등 초저가·고속을 전면에 내세워 상시 에이전트의 경제성을 크게 높였다고 밝힌다(벤더 발표 기준)

무엇이 새로 나왔나(포지셔닝/목표)

M2.1의 코딩 강점을 유지하면서, Word/Excel/PowerPoint 같은 오피스 산출물 생성·조작까지 학습 범위를 확장했다. ¹²
복잡한 디지털 업무 환경에서 강화학습(RL)로 훈련해, "정답"뿐 아니라 작업 분해·계획·행동(툴 사용)을 더 효율적으로 하도록 유도했다. ¹
동일 능력의 2개 제공 형태(M2.5 vs M2.5‑Lightning)로, 지연/비용 요구에 맞춰 고를 수 있게 했다. ¹

핵심 성능 지표(공식 수치)

SWE‑Bench Verified: 80.2% ¹²
참고 : Claude opus 4.6 이 80.8%
Multi‑SWE‑Bench: 51.3% ¹²
BrowseComp: 76.3% (with context management) ¹
SWE‑Bench Verified 평가 런타임: 31.3분(M2.1) → 22.8분(M2.5), 37% 개선 ¹
평균 토큰/태스크: 3.72M(M2.1) → 3.52M(M2.5) ¹

97f76950-2c60-4a9b-bb96-228454afabe9

강점: 코딩 / 에이전트(툴콜·서치) / 오피스 작업

코딩: 여러 언어·플랫폼의 "전체 개발 사이클(설계→구현→리뷰/테스트)"을 목표로 하고, 코드 작성 전 요구사항/구조를 먼저 정리하는 경향(스펙 작성)을 강화했다. ¹
에이전트/서치: BrowseComp 등에서 고성능을 내면서, 불필요한 탐색 라운드와 토큰을 줄이는 방향으로 학습됐다(공식 발표: 라운드 약 20% 감소). ¹
오피스: 단순 요약이 아니라 제출 가능한 문서/슬라이드/스프레드시트 결과물을 겨냥해, 도메인 전문가 피드백을 학습 파이프라인에 넣었다. ¹

효율: 속도(TPS), 토큰 효율, 비용(가격·예시)

처리량(서빙 기준): Lightning 100 tokens/s, M2.5 50 tokens/s ¹
가격(공식): M2.5‑Lightning 입력 $0.3/M, 출력 $2.4/M. M2.5는 그 절반(입력 $0.15/M, 출력 $1.2/M). ¹²
시간당 비용 요지(공식): "$1/시간 at 100 tokens/s", "$0.30/hour at 50 tokens/s". ¹
토큰 효율: SWE‑Bench 기준 평균 3.52M tokens/task로 이전 대비 감소. ¹
캐싱 지원: 두 버전 모두 caching 지원(장문/반복 프롬프트 비용 최적화 여지). ¹

제공 형태(M2.5 vs M2.5-Lightning)와 선택 가이드

공통: "능력은 동일, 속도와 가격만 다름"이 공식 설명이다. ¹
M2.5‑Lightning(100 TPS): 대화형 에이전트, IDE 실시간 보조, 서치/툴 루프를 빠르게 돌려야 하는 UX에 적합.
M2.5(50 TPS, 절반 가격): 배치성 코드리뷰/리팩터링, 백그라운드 문서 생성, 대규모 동시 실행처럼 비용이 더 중요한 워크로드에 적합.
컨텍스트: OpenRouter 기준 204.8K(≈205K) 컨텍스트로 표기된다. ²

실무 활용 아이디어

코딩 에이전트: 이슈/버그 재현→수정안 생성→테스트 실행→PR 설명 작성까지 "루프형" 자동화에 붙이기.
검색 기반 리서치: 검색 결과 수집뿐 아니라, 정보 밀도가 높은 페이지를 여러 번 왕복하며 근거를 정리하는 작업에 배치. ¹
오피스 자동화: 보고서 초안(Word) + 발표자료(PPT) + 수치 모델(Excel)을 한 작업 흐름으로 묶고, 중간 산출물을 파일로 저장·갱신하는 형태로 설계.

주의/확인할 점

BrowseComp 76.3%는 "with context management" 조건이 붙어 있다. 컨텍스트 관리(요약/압축/메모리 전략) 유무에 따라 재현 성능이 달라질 수 있다. ¹
SWE‑Bench 런타임·토큰/태스크는 "에이전트 하네스/도구 구성" 영향을 크게 받는다. 내부 파이프라인과 다르면 속도·비용이 바뀔 수 있다. ¹
205K급 컨텍스트를 항상 꽉 채우는 방식은 비용·지연을 키운다. 캐싱, 요약 메모리, 작업 단위 분할을 함께 설계하는 편이 안전하다. ¹²

참고

¹MiniMax M2.5 공식 발표 - Built for Real-World Productivity

²OpenRouter - MiniMax M2.5(컨텍스트/가격 표기) [^3]: InfoQ - Claude Sonnet 4.5 Tops SWE-Bench Verified(77.2%, Sonnet 4 72.7% 언급)

MiniMax M2.5 정리 (초저가 고속 모델)

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.