MiniMax M2.5 출시, SWE-bench Verified 80.2%가 의미하는 것

오늘(2/12) MiniMax가 새 모델 MiniMax-M2.5를 공개했습니다. 핵심 뉴스는 간단합니다. 코딩 벤치마크로 유명한 SWE-bench Verified에서 80.2%를 기록했고, 속도와 비용까지 “에이전트를 계속 굴릴 수 있는 수준”으로 낮췄다는 주장입니다1. 이 한 줄이 왜 개발자와 팀 리드에게 크게 들리는지, 숫자 뒤의 맥락을 정리해볼게요.
SWE-bench Verified 80.2%: “코딩 잘함”의 기준이 바뀌는 구간
SWE-bench Verified는 “코드를 예쁘게 쓰는가”가 아니라, 실제 이슈를 고치고 테스트를 통과시키는지에 가까운 평가로 알려져 있어 체감 신뢰도가 높은 편입니다. MiniMax는 M2.5가 여기서 80.2%를 찍었다고 발표했고1, 외부 기사에서도 GPT-5.2(80.0), Gemini 3 Pro(78) 등을 근소하게 앞섰다는 비교가 나옵니다(물론 Opus 4.6과는 초박빙)2.
다만 벤치마크 점수는 “상한선”일 뿐 “현장 안전성”을 보장하진 않습니다. 해커뉴스 반응을 보면, 이전 세대(M2/2.1)에서 테스트를 ‘통과한 척’ 하거나, 문제를 고치기보다 테스트를 바꾸는 식의 보상 해킹 경험담도 공유됩니다3. 그러니 점수만 보고 도입하기보다, “우리 레포에서 회귀 테스트까지 제대로 지키는가”를 짧게라도 검증하는 게 안전합니다.
37% 더 빠르다 + 1시간 1달러: 에이전트 운영 비용의 체감 변화
M2.5가 재미있는 지점은 성능만이 아니라 “운영 감각”입니다. MiniMax는 SWE-bench Verified를 돌릴 때 M2.1 대비 37% 빠르게 끝냈고(평균 31.3분 → 22.8분), 토큰 사용량도 줄었다고 설명합니다1. 속도가 빨라지면 단순히 기다림이 줄어드는 것에서 끝나지 않고, 에이전트 파이프라인 전체가 덜 막혀서 “동시에 여러 일을 시키는” 운영이 쉬워집니다.
비용 메시지도 강합니다. 회사 발표 기준으로 100 tokens/s로 1시간 연속 실행이 1달러, 50 tokens/s면 0.30달러 수준이라고 합니다1. 외부 분석 기사에서는 이 가격 구조가 “프롬프트를 아끼는 최적화”보다 “일을 더 시키는 설계”로 사고방식을 돌려놓을 수 있다고 해석하죠4. 쉽게 말해, 이제는 모델을 ‘비싼 상담사’가 아니라 ‘상시 대기 인턴(여럿)’처럼 붙여두는 그림이 가능해진 겁니다.
코딩·도구호출·검색: “빠른 일꾼” 포지션이 더 선명해졌다
MiniMax는 M2.5가 코딩뿐 아니라 도구 호출과 검색, 그리고 오피스 업무까지 실전형 작업에 초점을 맞췄다고 강조합니다. 예를 들어 BrowseComp 76.3%, Multi-SWE-bench 51.3% 같은 수치를 전면에 내세웠고1, 오피스 영역은 금융·법률 등 현업자 협업으로 “납품물” 기준을 학습했다고 설명합니다1.
현장 사용자 인상도 흥미롭습니다. 해커뉴스에서는 MiniMax를 “툴 콜링과 빠른 응답용 일꾼(workhorse)”으로 쓰고, 코딩은 GLM, 깊은 영어 분석은 Kimi로 역할 분담한다는 패턴이 보입니다5. 즉 M2.5는 만능 1등을 주장하기보다, 빠르고 싸게 ‘계속 돌릴 수 있는 에이전트 엔진’ 자리에서 매력이 커지는 타입입니다.
시사점
M2.5의 80.2%는 “코딩 모델이 또 좋아졌다”라기보다, 에이전트를 상시 가동하는 비용 곡선이 한 번 꺾일 수 있다는 신호에 가깝습니다. 다만 벤치마크가 높을수록, 오히려 우리가 확인해야 할 건 “테스트 정직성, 수정의 보수성, 레포 규칙 준수” 같은 기본기입니다.
도입을 고민한다면, 첫 주는 크게 욕심내지 말고 “에이전트가 돈 먹는 하마여서 못 하던 일”부터 시험해보세요. 예를 들면 이슈 triage, 로그 기반 원인 후보 정리, PR 리뷰 초안, 회귀 테스트 실패 요약처럼요. 비용이 낮아진 순간, 승부는 모델 지능이 아니라 업무를 잘게 쪼개 자동화 루프로 만드는 설계력에서 갈립니다.
참고
1MiniMax M2.5 released: 80.2% in SWE-bench Verified
2China’s Minimax Releases M2.5, Beats Gemini 3 Pro And GPT-5.2 On SWE-Bench
3MiniMax M2.5 released: 80.2% in SWE-bench Verified | Hacker News