Claude Opus 4.5 성능·가격·새 기능, 지금 써볼 만한가?

Generated image Anthropic가 Claude Opus 4.5를 공개했습니다. 최근 일주일 사이에 Gemini 3, GPT 5.1 Codeex Max 등이 연달아 나온 상황에서 또 하나의 프런티어 모델이 추가된 셈입니다. 특히 코드 작성, 에이전트, 컴퓨터 사용 영역에서 가장 강력한 모델이라는 평가를 받으면서 개발자와 AI 워커들의 관심을 끌고 있습니다.

이 글에서는 Opus 4.5의 주요 벤치마크 점수, 경쟁 모델과의 비교, 가격, 툴 사용 방식 변화(Advanced Tool Use), 효율성 개선 포인트, 그리고 실제 사용자 반응까지 한 번에 정리해 둡니다. 어느 모델을 실무에 쓸지 고민하는 분들에게 선택 기준을 제공하는 데 초점을 둡니다.

Claude Opus 4.5, 코딩 벤치마크에서 보여준 성능

Opus 4.5가 가장 두드러진 부분은 코딩 관련 벤치마크입니다. 특히 Swebench Verified 점수가 눈에 띕니다.

Swebench Verified에서 Opus 4.5는 80.9%를 기록했습니다. 같은 Anthropic의 이전 세대 모델인 Sonnet 4.5는 77.2%였으니, 내부 세대 교체만 놓고 봐도 의미 있는 상승입니다.

경쟁 모델과 비교하면 다음과 같은 구도입니다.

Gemini 3 Pro: 76.2%
GPT 5.1 Codeex Max: 77.9%
GPT 5.1: 76.3%
Opus 4.5: 80.9%

그래프만 보면 Opus가 압도적으로 앞서는 것처럼 보이지만, 실제 축 범위(70~82%)를 감안하면 차이는 수 퍼센트포인트 수준입니다. 그럼에도 코딩 벤치마크 기준으로는 현재 상위권 최정점에 있는 모델이라는 점은 분명합니다.

코드 자동 생성이나 버그 수정, 레거시 코드 이해 등 실무형 코딩 작업을 중점으로 보는 분이라면, Swebench Verified 결과만으로도 Opus 4.5를 검토 리스트에 올릴 이유는 충분합니다.

에이전트·툴 사용·컴퓨터 조작 벤치마크에서의 위치

코딩을 넘어, 에이전트 및 툴 사용 능력, 컴퓨터 사용 능력에서도 Opus 4.5는 강한 면모를 보였습니다.

먼저, Agentic Terminal Bench 2.0(터미널 기반 코딩·작업 능력)에서 Opus 4.5는 59.3 점으로 1위를 차지했습니다. 같은 벤치마크에서 Gemini 3 Pro는 54.2 점으로 뒤를 이었습니다.

툴 사용을 평가하는 T2 Bench에서는 두 가지 점수가 공개됐습니다.

Opus 4.5: 98.2, 88.9
Gemini 3 Pro: 85.3, 98.0

항목별로 우열이 갈리지만, 최소 한 축에서는 Opus 4.5가 상당히 높은 점수를 기록해 툴 기반 워크플로우에 적합한 모델임을 보여줍니다.

컴퓨터 사용 능력을 측정하는 OSWorld 벤치마크도 공개되었습니다. 여기서 Opus 4.5는 66.3 점을 기록했습니다. 흥미로운 점은 OpenAI와 Google은 이 벤치마크 결과를 공개하지 않았다는 것입니다. 동일 기준으로 비교하기가 어렵다는 점은 감안해야 하지만, 적어도 Anthropic 쪽에서는 컴퓨터 사용 영역 성능에 자신감을 드러낸 셈입니다.

코딩과 터미널, 툴 호출, GUI 조작까지 아우르는 전체 그림에서 Opus 4.5는 "코드+에이전트+컴퓨터 사용" 세 영역을 통합적으로 다루기 좋은 모델에 가깝습니다.

Opus 4.5가 뒤처진 영역: 추론·멀티모달·다국어

모든 벤치마크를 Opus 4.5가 석권한 것은 아닙니다. 몇몇 영역에서는 경쟁 모델들이 앞서 있습니다.

GPQA Diamond(대학원 수준의 추론 능력)에서는 Opus 4.5가 87%, Gemini 3 Pro는 91.9%로 Gemini 쪽이 더 높은 점수를 기록했습니다.
시각적 추론을 보는 MMU에서는 GPT 5.1이 1위를 차지했습니다.
다국어 Q&A 벤치마크인 MMLU에서는 Gemini 3가 91.8%, Opus 4.5는 90.8%로, 역시 Gemini 쪽이 근소하게 앞섰습니다.

즉, 코딩·툴·에이전트에 특화된 강점 대신, 순수 추론 벤치마크나 멀티모달·다국어 Q&A 영역에서는 타사 최신 모델과 비슷하거나 다소 뒤처진 부분도 있다는 의미입니다.

한국어 중심 업무만 한다면 MMLU 차이가 체감될지는 별도 검토가 필요하지만, 글로벌 다국어 서비스나 고난도 이론 문제 풀이에 AI를 활용하려는 경우라면 이 벤치마크 결과도 참고할 가치가 있습니다.

Vending Bench·ARC AGI: 장기 일관성과 '준 AGI' 지표

Anthropic는 Vending Bench라는 장기 일관성 관련 벤치마크 결과도 공개했습니다. 이 벤치는 가상 자판기 환경에서 재고를 관리하고, 이익을 최대화하는 시나리오를 통해 모델의 장기 계획·일관성을 측정합니다.

Opus 4.5는 이 환경에서 4,967달러 수준의 이익을 달성했습니다. 반면 공식 Vending Bench 2 리더보드에서 Gemini 3 Pro는 5,478.16달러로 여전히 1위를 유지하고 있습니다. 이 지표만 놓고 보면, 장기 계획과 이익 극대화 시나리오에서 Opus 4.5는 선두는 아니지만 상위권 수준입니다.

또 하나 주목할 만한 것은 ARC AGI 관련 점수입니다.

ARC AGI 1에서 Gemini 3 Deep Think는 87.5%, Opus 4.5 Thinking(64K)은 80%를 기록했습니다.
인간 기준은 98%로 여전히 상당한 격차가 남아 있습니다.
ARC AGI 2에서는 Gemini 3 Deep Think가 45.1%, Opus 4.5 Thinking이 37.6%를 기록했습니다.

이 수치들은 "AGI에 얼마나 근접했는가"를 보여주는 지표로 자주 언급되는데, 현재 모델들이 여전히 인간 성능에 상당히 미치지 못한다는 사실도 함께 보여줍니다. 실무에서 '완전한 자율 에이전트'를 기대하기보다는, 보조적인 고성능 도구에 가까운 위치라고 보는 편이 현실적입니다.

가격 구조: Gemini 3 Pro 대비 최대 2배 수준

성능과 함께 가격도 중요한 선택 요소입니다. Opus 4.5의 요금은 다음과 같이 공지되었습니다.

100만 토큰 기준 총 $525
입력: $5 / 1M tokens
출력: $25 / 1M tokens

이를 Gemini 3 Pro와 비교하면 차이가 명확합니다.

Gemini 3 Pro (프롬프트 20만 토큰 미만): 입력 $2, 출력 $12
Gemini 3 Pro (프롬프트 20만 토큰 이상): 입력 $4, 출력 $18

즉, 상황에 따라 Opus 4.5는 Gemini 3 Pro 대비 약 50~100% 더 비싼 편입니다. 코딩과 에이전트 관련 성능을 감안하더라도, 대규모 트래픽을 처리하는 서비스에서는 비용 부담을 면밀히 계산할 필요가 있습니다.

따라서 "최고 성능"보다는 "성능 대비 비용"을 우선하는 팀이라면, 특정 워크로드(예: 고난도 코드 수정, 복잡한 에이전트 시나리오)에만 Opus 4.5를 선택적으로 사용하는 전략도 고려해볼 만합니다.

Anthropic 내부 채용 과제도 이긴 성능

흥미로운 사례 하나가 공개되었습니다. Anthropic는 성능 엔지니어를 채용할 때 난이도가 높은 과제형 시험을 제공합니다. 이 과제를 Opus 4.5에게도 동일하게 부여했더니, 지금까지 Anthropic가 채용한 어떤 개별 지원자보다 Opus 4.5가 더 좋은 결과를 냈다고 합니다.

이 시험은 제한 시간도 2시간으로 정해져 있습니다. 시간 압박이 있는 조건에서, 그동안 선발된 우수 엔지니어들을 모두 제쳤다는 점은 실전 문제 풀이·논리 구성 능력이 어느 수준에 와 있는지를 잘 보여줍니다.

물론 채용 과제 점수가 곧바로 "실무 전체 능력"을 대변하는 것은 아니지만, 최소한 복잡한 문제를 제한 시간 내에 구조화하고 해결하는 능력에서 인간 상위권에 근접했다는 의미로 해석할 수 있습니다.

Advanced Tool Use: MCP 시대의 문맥 낭비 줄이기

Opus 4.5와 함께 주목해야 할 변화 중 하나가 Advanced Tool Use 기능입니다. MCP 서버가 확산되면서, 각 서버의 툴 이름·설명·사용법이 모두 컨텍스트 윈도에 들어가고 있습니다. 이때 아직 사용자 프롬프트도 쓰기 전에 문맥의 상당 부분을 툴 설명이 차지하는 문제가 발생합니다.

Anthropic는 이 문제를 해결하기 위해 모델이 "툴을 찾는 툴"을 먼저 사용하도록 하는 구조를 제안했습니다. 핵심은 모델이 모든 툴 정의를 미리 기억하는 대신, 필요할 때 검색해서 최소한의 정의만 가져오도록 하는 것입니다.

Advanced Tool Use는 크게 세 부분으로 구성됩니다.

Tool Search Tool: Claude가 수많은 MCP 툴 중에서 필요한 툴을 검색해 선택하도록 해 줍니다. 이 과정에서 툴 정의 전체가 아니라, 정말 필요한 정보만 컨텍스트에 넣습니다.
Programmatic Tool Calling: 코드 실행 환경에서 툴 호출을 처리해 모델 컨텍스트 사용량을 줄입니다.
Tool Use Examples: 특정 툴을 어떻게 써야 하는지 표준화된 예시를 제공해, 툴 활용 성능을 안정적으로 끌어올립니다.

이 구조는 툴을 많이 쓸수록 효과가 커집니다. MCP 기반의 복잡한 스택에서 에이전트를 운영하는 팀이라면, 문맥 낭비를 줄여 실제 사용자 입력과 내부 데이터에 더 많은 토큰을 할당할 수 있습니다.

MCP 툴 정의가 문맥을 얼마나 많이 먹는지

Anthropic는 MCP 툴 정의가 컨텍스트 윈도를 얼마나 소모하는지도 수치로 공개했습니다.

GitHub MCP 서버: 툴 35개, 로딩 시 약 26,000 토큰 사용
Slack: 툴 11개, 약 21,000 토큰
Sentry: 툴 5개, 약 3,000 토큰
Grafana, Splunk 등 다른 MCP 서버도 각각 상당한 토큰을 차지

여기에 여러 MCP 서버를 동시에 붙이면, 사용자 프롬프트 이전 단계에서 이미 수만 토큰이 소진됩니다. Anthropic가 예시로 보여준 시나리오에서는 기존 방식으로 MCP 툴들을 한꺼번에 로드하면 컨텍스트 윈도의 약 40%가 툴 정의에만 사용됩니다.

반면 Tool Search 기반 방식을 적용하면, 같은 환경에서 툴 정의에 쓰이는 비율이 약 5% 수준까지 줄어듭니다. 나머지 95%를 실제 업무 맥락에 쓰는 구조가 되는 셈입니다. 다수의 툴을 조합해 에이전트를 운영하는 프로젝트라면, 이 차이는 품질뿐 아니라 비용에도 직접적인 영향을 줍니다.

Sonnet 4.5 대비 효율성: "생각 토큰" 줄이고 정확도는 올리기

성능뿐 아니라 효율성도 이번 Opus 4.5의 핵심 포인트로 강조되었습니다. 동일한 정확도를 내기 위해 얼마나 많은 토큰이 필요한지, 이른바 "intelligence per token" 관점에서 개선이 이루어졌습니다.

Swebench Verified 기준으로 보면, Sonnet 4.5는 약 76% 정확도를 달성하기까지 약 22,000 토큰을 사용했습니다. 반면 Opus 4.5(High Thinking 설정)는 80% 이상 정확도를 기록하면서도 약 12,000 토큰만 사용했습니다.

정확도: 약 4%p 이상 향상
사용 토큰: 거의 절반 수준으로 감소

같은 작업을 시킬 때 "더 적은 토큰으로 더 높은 성능"을 내기 때문에, 토큰 단가가 다소 비싸더라도 실질 비용은 상황에 따라 비슷하거나 오히려 더 낮아질 가능성도 있습니다. 특히 장기 추론이나 복잡한 에이전트 시나리오처럼 토큰을 많이 쓰는 작업일수록, 이런 효율 차이가 누적되면서 체감 차이가 커집니다.

실제 사용자 반응: 코딩·실무 작업에서의 체감

Opus 4.5에 미리 접근해본 사용자들의 반응도 일부 공개되었습니다.

Every의 CEO인 Dan Shipper는 Opus 4.5를 두고 "지금까지 써본 것 중 가장 좋은 코딩 모델이며, 차이가 크다"라고 평가했습니다.
Ethan Mollik 역시 초기 사용 경험에서 Opus 4.5가 프런티어 수준 모델이라는 인상을 받았다고 밝혔습니다. 특히 엑셀 데이터를 기반으로 한 파워포인트 제작 같은 실무형 작업에서 큰 개선을 느꼈고, 시 창작 테스트와 Claude Code에서도 이전보다 좋은 결과를 얻었다고 전했습니다.

이러한 피드백은 벤치마크 수치와 별개로, 현업에서 부딪치는 구체적인 업무(문서·코드·콘텐츠)를 다루는 능력이 상당 수준이라는 간접적인 증거가 됩니다. 단순 정답률뿐 아니라 "한 번에 쓸 수 있는 결과물을 뽑아주는지"를 중요하게 보는 입장에서는 참고할 만한 지점입니다.

Claude Opus 4.5 활용 시 장점·한계·주의점

Claude Opus 4.5는 코딩·에이전트·툴·컴퓨터 사용에 최적화된 모델에 가깝습니다. Swebench, Terminal Bench, T2 Bench, OSWorld 등의 지표를 보면, 이 영역에서 현 시점 최고 수준의 성능을 제공하는 것은 분명합니다. MCP 환경에서의 Advanced Tool Use, 컨텍스트 효율 개선도 실무 개발자에게는 직접적인 이득이 됩니다.

다만 모든 영역에서 절대적인 1위는 아닙니다. GPQA, MMLU, MMU, Vending Bench, ARC AGI 등에서 Gemini 3나 GPT 5.1 계열이 앞서는 지점도 존재합니다. 순수 추론, 멀티모달, 다국어를 중시한다면 다른 모델과의 조합도 고려하는 편이 합리적입니다.

가격 측면에서는 Gemini 3 Pro 대비 최대 2배 수준의 단가가 부담 요소입니다. 그러나 토큰 효율이 높아, 실제 사용량 기준 비용이 얼마나 차이가 날지는 워크로드 특성에 따라 달라질 수 있습니다. 복잡한 코드 수정, 장기 에이전트 시나리오처럼 토큰을 많이 쓰는 작업이라면, 효율 개선 덕분에 비용 격차가 생각보다 작을 수 있습니다.

결국 선택 기준은 명확합니다.

주로 코드 생성·리팩터링·터미널 작업·툴 기반 에이전트를 돌린다면, Opus 4.5를 우선 후보로 두는 것이 타당합니다.
반대로 다국어 지식 질의, 이미지·멀티모달, 추론 시험형 문제 풀이에 집중한다면, Gemini 3나 GPT 5.1 계열과 함께 비교 테스트를 하는 편이 더 맞습니다.

실무에서는 한 모델로 모든 요구를 해결하기보다, 작업 유형별로 가장 잘 맞는 모델을 나눠 쓰는 전략이 현실적입니다. Claude Opus 4.5는 그중에서도 "코딩·에이전트·툴 사용" 카테고리에서 강력한 선택지로 자리 잡을 가능성이 큽니다.

출처 및 참고 :