생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.
SWE-bench 2026년 2월 리더보드 업데이트: 무엇이 달라졌나

2026년 2월, 오랜만에 SWE-bench 공식 리더보드가 “전체 재실행” 형태로 업데이트됐습니다. 의미가 큰 이유는, 보도자료 속 ‘자체 보고 점수’가 아니라 같은 조건에서 다시 돌린 결과가 공개됐기 때문입니다.1 이번 글에서는 업데이트에서 꼭 봐야 할 포인트와, 숫자를 해석할 때 놓치기 쉬운 함정을 함께 정리해봅니다.
SWE-bench 리더보드 업데이트 핵심: “Bash Only”와 공정성
이번에 공개된 결과는 SWE-bench의 “Bash Only” 트랙 기준입니다. 여기서 중요한 디테일이 하나 있는데요. 원래 2,294개 문제로 구성된 SWE-bench 전체가 아니라, 사람이 검증해 추린 500개 규모의 SWE-bench Verified로 돌린 결과라는 점입니다.1
평가 방식도 흥미롭습니다. 약 9,000줄 규모의 mini-swe-agent가 동일한 시스템 프롬프트로 각 모델을 테스트합니다.1 즉 “모델 자체의 문제 해결력”을 비교하기엔 상대적으로 공정하지만, 반대로 말하면 팀별로 비밀 병기처럼 다듬는 프롬프트 엔지니어링이나 에이전트 설계 실력은 덜 반영됩니다. 리더보드가 “모델 순수 체급표”에 가까워진 셈이죠.
2026년 2월 TOP10: 70%대가 ‘기본’이 된 이유
상위권은 70%대 해결률이 촘촘하게 뭉쳐 있습니다. 공개된 TOP10 기준으로는 Claude 4.5 Opus가 76.8%로 선두, 그 뒤를 Gemini 3 Flash와 MiniMax M2.5가 75.8%로 바짝 추격합니다.1 재미있는 장면은 “Opus 4.6보다 4.5가 근소하게 높다”는 것. 최신 버전이 항상 벤치마크 1등을 먹는 건 아니라는 교훈을 줍니다.1
또 하나의 흐름은 중국계 모델의 존재감입니다. MiniMax M2.5(229B), GLM-5, Kimi K2.5, DeepSeek V3.2가 TOP10에 포진해 있어, 이제 ‘코딩 벤치마크는 몇 개 서구권 모델만의 리그’라고 말하기 어렵습니다.1
SWE-bench Verified vs SWE-Bench Pro: 점수 착시를 피하는 법
여기서부터가 실전입니다. Verified에서 70~80%가 나오면 “이제 AI가 개발자 일을 대부분 하겠네?”라는 착각이 들기 쉬운데, 더 현실에 가까운 벤치마크로 가면 숫자가 급격히 내려옵니다.
Scale AI의 SWE-Bench Pro는 오염(학습 데이터에 이미 코드가 들어갔을 가능성), 과도한 단순화, 재현 불가능한 평가 환경 같은 문제를 정면으로 겨냥해 설계됐고, 공개 세트에서 상위 모델도 20%대 초반이 나온다고 밝힙니다.2 즉 Verified는 “정제된 500문제에서의 성능”, Pro는 “실무형 장기 과제에서의 생존력”에 가깝습니다.
한편 리더보드를 볼 때 또 하나의 함정이 있습니다. 같은 Pro라도 스캐폴드(에이전트/하네스)가 달라지면 점수가 크게 튀기도 합니다. 2026년 2월 기준으로는 Pro에서 50%대 점수도 보고되는데, 이 역시 ‘모델 단독 성능’이라기보다 “어떤 작업 프레임워크에 얹었는가”의 영향이 큽니다.3 결론적으로, 벤치마크 점수는 모델 고르는 기준이 될 수는 있어도 “그 점수만큼 내 코드베이스에서 바로 일한다”로 번역하면 위험합니다.
시사점
이번 SWE-bench 2월 업데이트가 주는 메시지는 단순합니다. 첫째, 공식 재실행 결과는 신뢰도가 높고, 상위권 모델 간 격차는 이제 ‘몇 퍼센트’ 싸움으로 들어갔습니다.1
둘째, Verified 고득점은 희소식이지만, 실무에 더 가까운 Pro로 가면 성능이 뚝 떨어질 수 있습니다.2 그래서 도입 전략은 “리더보드 1등 모델 고정”이 아니라, 내가 하는 일이 무엇인지부터 분해하는 게 좋습니다. 파이썬 OSS 버그픽스형 업무면 Verified가 참고가 되고, 여러 파일을 넘나드는 장기 과제·환경 재현·테스트 안정성이 중요하면 Pro 성향의 평가를 더 보수적으로 반영하세요.
마지막으로, 앞으로는 “모델”만 보지 말고 “스캐폴드까지 포함한 작업 시스템”을 함께 보게 될 가능성이 큽니다.3 같은 두뇌라도, 어떤 손과 발을 달아주느냐가 점수(그리고 실제 생산성)를 갈라놓고 있으니까요.
참고
1SWE-bench February 2026 leaderboard update