
Claude Opus 4.5를 소개합니다 (2025-11-25)

다음은 앤쓰로픽 공식 문서를 번역한 글입니다.
2025년 11월 25일
오늘, Anthropic의 최신 모델인 Claude Opus 4.5를 공개합니다. 이 모델은 지능적이고 효율적이며, 코딩, 에이전트(Agent), 컴퓨터 제어(Computer use) 분야에서 세계 최고의 성능을 자랑합니다. 또한 심층 연구(Deep research), 슬라이드 및 스프레드시트 작업과 같은 일상적인 업무에서도 유의미한 성능 향상을 이뤘습니다. Opus 4.5는 AI 시스템의 가능성을 한 단계 끌어올린 모델이며, 업무 방식의 거대한 변화를 예고하는 서막입니다.
Claude Opus 4.5는 실제 소프트웨어 엔지니어링 테스트에서 SOTA(State-of-the-art)를 달성했습니다.

Opus 4.5는 오늘부터 당사의 앱, API, 그리고 3대 주요 클라우드 플랫폼에서 모두 사용할 수 있습니다. 개발자라면 Claude API를 통해 claude-opus-4-5-20251101을 호출하여 즉시 사용할 수 있습니다. 가격은 백만 토큰당 $5(입력)/$25(출력)로 책정되었습니다. 이제 더 많은 사용자, 팀, 그리고 기업들이 Opus 수준의 기능을 합리적으로 이용할 수 있게 되었습니다.
Opus 출시와 함께 Claude Developer Platform, Claude Code, 그리고 소비자용 앱에 대한 업데이트도 진행됩니다. 장기 실행 에이전트(Longer-running agents)를 위한 새로운 도구들이 추가되었으며, Excel, Chrome 및 데스크톱 환경에서 Claude를 활용하는 새로운 방법들이 도입되었습니다. Claude 앱에서는 긴 대화가 중단되는 일이 사라집니다. 자세한 내용은 아래 제품 섹션을 참고해 주십시오.
첫인상 (First Impressions)
출시 전 Anthropic 동료들이 모델을 테스트하면서 놀라울 정도로 일관된 피드백을 주었습니다. 테스터들은 Claude Opus 4.5가 모호한 상황을 잘 처리하고, 일일이 지시하지 않아도(without hand-holding) 트레이드오프를 고려하여 추론한다고 평가했습니다. 복잡한 다중 시스템 버그를 맡기면 Opus 4.5가 해결책을 찾아낸다는 증언도 있었습니다. 불과 몇 주 전만 해도 Sonnet 4.5로는 불가능에 가까웠던 작업들이 이제는 사정권 안에 들어왔습니다. 전반적으로 테스터들은 Opus 4.5가 "맥락을 완벽히 파악한다(Just gets it)"고 입을 모았습니다.
초기 액세스 권한을 가진 고객들도 비슷한 경험을 공유했습니다. 다음은 그들의 피드백입니다:
"Opus 모델들은 항상 '진정한 SOTA'였지만, 과거에는 비용이 걸림돌이었습니다. Claude Opus 4.5는 이제 대부분의 작업에 주력 모델(Go-to model)로 사용할 수 있는 가격대에 도달했습니다. 명확한 승자이며, 우리가 본 것 중 최고의 프런티어급 태스크 플래닝과 도구 호출(Tool calling) 능력을 보여줍니다."
— Jeff Wang, CEO
"Claude Opus 4.5는 고품질 코드를 제공하며 GitHub Copilot과 연동된 고부하 에이전트 워크플로우(Heavy-duty agentic workflows)에서 탁월한 성능을 발휘합니다. 초기 테스트 결과, 내부 코딩 벤치마크를 능가하면서도 토큰 사용량은 절반으로 줄었으며, 특히 코드 마이그레이션과 리팩토링 같은 작업에 적합합니다."
— Mario Rodriguez, Chief Product Officer
"Claude Opus 4.5는 내부 벤치마크에서 Sonnet 4.5 및 경쟁 모델들을 압도하며, 동일한 문제를 해결하는 데 더 적은 토큰을 사용합니다. 규모가 커질수록 그 효율성은 배가됩니다."
— Michele Catasta, President
"Claude Opus 4.5는 사용자가 프로젝트를 기획하고 반복(Iterate)하는 Lovable의 채팅 모드 내에서 프런티어급 추론 능력을 제공합니다. 그 추론의 깊이는 기획 자체를 변화시키며, 훌륭한 기획은 더 나은 코드 생성으로 이어집니다."
— Fabian Hedin, CTO & Co-founder
"Claude Opus 4.5는 장기적인 자율 작업(Long-horizon, autonomous tasks), 특히 지속적인 추론과 다단계 실행이 필요한 작업에서 탁월합니다. 평가 결과, 복잡한 워크플로우를 처리할 때 막다른 길(Dead-ends)에 부딪히는 경우가 훨씬 적었습니다. Terminal Bench에서 Sonnet 4.5 대비 15%의 성능 향상을 보였으며, 이는 Warp의 Planning Mode 사용 시 특히 두드러지는 유의미한 개선입니다."
— Zach Lloyd, Founder & CEO
"Claude Opus 4.5는 정보 검색, 도구 사용, 심층 분석이 결합된 다단계 추론 과제에서 이전 모델들을 능가하며, 복잡한 엔터프라이즈 과제 벤치마크에서 SOTA 결과를 달성했습니다."
— Kay Zhu, CTO
"Claude Opus 4.5는 가장 중요한 부분에서 측정 가능한 이득을 제공합니다. 가장 까다로운 평가에서의 강력한 결과와 30분간의 자율 코딩 세션 전반에 걸친 일관된 성능이 바로 그것입니다."
— Scott Wu, CEO
"Claude Opus 4.5는 자기 개선형 AI 에이전트(Self-improving AI agents)의 돌파구를 마련했습니다. 사무 자동화 분야에서 우리 에이전트들은 자신의 능력을 자율적으로 개선할 수 있었으며, 다른 모델들이 10회 반복 후에도 도달하지 못한 품질을 단 4회 만에 달성했습니다."
— Yusuke Kaji, General Manager of AI for Business
"Claude Opus 4.5는 Cursor 내부의 이전 Claude 모델들에 비해 괄목할 만한 향상을 이루었으며, 어려운 코딩 작업에서의 지능은 높아지고 가격은 개선되었습니다."
— Michael Truell, CEO & Co-founder
"Claude Opus 4.5는 Anthropic이 일반 지능(General Intelligence)의 최전선을 넓히고 있음을 보여주는 또 다른 사례입니다. 어려운 코딩 작업 전반에서 매우 뛰어난 성능을 보이며, 장기 목표 지향적 행동(Long-term goal-directed behavior)을 보여줍니다."
— Eno Reyes, CTO & Co-founder
"Claude Opus 4.5는 두 개의 코드베이스와 세 개의 협력 에이전트에 걸친 인상적인 리팩토링을 수행했습니다. 매우 철저하게 견고한 계획을 수립하고, 세부 사항을 처리하며, 테스트까지 수정했습니다. Sonnet 4.5에서 확실히 진보한 단계입니다."
— Paulo Arruda, Staff Engineer, AI Productivity
"Claude Opus 4.5는 우리가 테스트한 어떤 모델보다 장기 코딩 작업(Long-horizon coding tasks)을 효율적으로 처리합니다. 보류된 테스트(Held-out tests)에서 최대 65% 더 적은 토큰을 사용하면서도 더 높은 통과율을 기록해, 개발자들이 품질 저하 없이 실질적인 비용 통제권을 갖게 해줍니다."
— Sean Ward, CEO & Co-founder
"우리는 Opus 4.5가 사용자가 실제로 원하는 것을 해석하는 데 탁월하며, 첫 시도만으로 공유 가능한 수준의 콘텐츠를 생성한다는 것을 확인했습니다. 속도, 토큰 효율성, 그리고 놀라울 정도로 저렴한 비용 덕분에 Notion Agent에서 처음으로 Opus를 제공하게 되었습니다."
— Sarah Sachs, AI Lead Engineer
"Claude Opus 4.5는 긴 호흡의 스토리텔링에 탁월하여, 10~15페이지 분량의 챕터를 강력한 구성과 일관성을 유지하며 생성합니다. 이전에는 안정적으로 제공할 수 없었던 사용 사례들이 이제 가능해졌습니다."
— Djay Lee, CPO & Co-founder
"Claude Opus 4.5는 Excel 자동화 및 재무 모델링의 새로운 표준을 제시합니다. 내부 평가에서 정확도는 20%, 효율성은 15% 향상되었으며, 한때 불가능해 보였던 복잡한 작업들이 이제 달성 가능해졌습니다."
— Nico Christie, Co-founder
"Claude Opus 4.5는 가장 까다로운 3D 시각화 작업 중 일부를 완벽하게 수행하는 유일한 모델입니다. 세련된 디자인, 감각적인 UX, 뛰어난 기획 및 오케스트레이션 능력을 갖췄으면서도 토큰 사용량은 더 효율적입니다. 이전 모델로 2시간 걸리던 작업이 이제 30분이면 끝납니다."
— Madhav Jha, CTO
"Claude Opus 4.5는 코드 리뷰 시 정밀도를 잃지 않으면서도 더 많은 이슈를 포착합니다. 대규모 프로덕션 코드 리뷰에서 이러한 신뢰성은 매우 중요합니다."
— David Loker, Director of AI
"우리의 코딩 에이전트 Junie와 함께 테스트한 결과, Claude Opus 4.5는 모든 벤치마크에서 Sonnet 4.5를 능가했습니다. 작업을 해결하는 데 필요한 단계가 줄어들고 결과적으로 토큰 사용량도 감소했습니다. 이는 새 모델이 더 정밀하고 지시를 더 효과적으로 따른다는 것을 의미하며, 우리가 매우 기대하는 방향입니다."
— Andrew Zakonov, VP of Business, Junie & Kineto
"Effort(노력) 파라미터는 훌륭합니다. Claude Opus 4.5는 지나치게 고민하기보다 역동적으로 느껴지며, 낮은 Effort 설정에서도 극적으로 효율적이면서 우리가 필요로 하는 품질을 제공합니다. 이러한 제어 능력은 우리의 SQL 워크플로우가 요구하는 바로 그 기능입니다."
— AJ Orbach, CEO & Co-founder
"Claude Opus 4.5를 통해 도구 호출 오류와 빌드/린트(Lint) 오류가 50%에서 75%까지 감소하는 것을 목격하고 있습니다. 복잡한 작업을 더 적은 반복으로, 더 안정적으로 실행해냅니다."
— Nicholas Charriere, Founder & CEO
"Claude Opus 4.5는 매끄럽습니다. 다른 프런티어 모델들에서 보였던 거친 부분들이 전혀 없습니다. 속도 향상은 정말 놀랍습니다."
— Quinn Slack, CEO
Claude Opus 4.5 평가 (Evaluating Claude Opus 4.5)
우리는 퍼포먼스 엔지니어링 입사 지원자들에게 악명 높기로 유명한 과제 전형을 실시합니다. 또한, 이를 내부 벤치마크로 활용하여 새로운 모델들을 테스트합니다. Claude Opus 4.5는 정해진 2시간의 제한 시간 내에 역대 어떤 인간 지원자보다 높은 점수를 기록했습니다. [1]
이 과제 테스트는 시간적 압박 속에서 기술적 능력과 판단력을 평가하도록 설계되었습니다. 협업 능력, 의사소통 능력, 혹은 수년에 걸쳐 개발되는 직관과 같은 지원자의 다른 중요한 역량들은 테스트하지 않습니다. 하지만 AI 모델이 중요한 기술적 능력에서 유능한 지원자들을 능가했다는 결과는 엔지니어링이라는 직업이 앞으로 어떻게 변화할지에 대한 질문을 던집니다. 우리의 사회적 영향(Societal Impacts) 및 경제적 미래(Economic Futures) 연구는 다양한 분야에 걸친 이러한 변화를 이해하는 데 중점을 두고 있으며, 조만간 더 많은 결과를 공유할 계획입니다.
소프트웨어 엔지니어링만이 Claude Opus 4.5가 개선된 유일한 분야는 아닙니다. Opus 4.5는 시각(Vision), 추론(Reasoning), 수학적 능력(Mathematics) 등 전반적인 역량이 이전 모델보다 뛰어나며, 다수의 도메인에서 SOTA를 기록했습니다. [2]

(SWE-bench Multilingual)

(Aider Polyglot)

(BrowseComp-Plus)

(Vending-Bench)
Opus 4.5는 더 나은 코드를 작성하며, SWE-bench Multilingual의 8개 프로그래밍 언어 중 7개에서 선두를 달리고 있습니다.
이 모델의 능력은 우리가 테스트에 사용하는 일부 벤치마크의 예상을 뛰어넘기도 합니다. 에이전트 능력을 평가하는 일반적인 벤치마크인 τ2-bench는 실제 다중 턴(Multi-turn) 작업에서 에이전트의 성능을 측정합니다. 한 시나리오에서 모델은 곤경에 처한 고객을 돕는 항공사 서비스 상담원 역할을 수행해야 합니다. 이 벤치마크는 모델이 '베이직 이코노미 예약 변경' 요청을 거절할 것으로 예상합니다(항공사 규정상 해당 등급은 변경 불가). 하지만 Opus 4.5는 좌석 등급을 먼저 업그레이드한 뒤, 비행 편을 변경하는 통찰력 있고 (규정상 합법적인) 해결책을 찾아냈습니다.
[Opus 4.5의 사고 과정]
정책 내에서 어떤 옵션이 있는지 생각해 보자:
항공편 변경 - 베이직 이코노미는 변경 불가함. 정책에 명시되어 있음.
좌석 등급 변경 - 잠깐, 이 옵션을 확인해 보자! 정책에 따르면: "그 외의 경우, 베이직 이코노미를 포함한 모든 예약은 항공편 변경 없이 좌석 등급을 변경할 수 있다."
하지만 고객은 단순 좌석 변경이 아니라 항공편 변경을 원한다. 그렇다면 만약 우리가:
좌석 등급을 먼저 변경하고 (베이직 이코노미에서도 허용됨),
그다음 항공편을 변경한다면? (비-베이직 이코노미에서는 허용됨)
따라서 전략은 다음과 같다:
좌석을 베이직 이코노미에서 이코노미(또는 비즈니스)로 업그레이드한다.
그 후 항공편을 2일 뒤로 변경한다.
이 방법은 비용이 더 들겠지만, 정책 내에서 가능한 합법적인 경로이다!
벤치마크는 Claude의 해결 방식이 예상치 못한 것이었기에 기술적으로 이를 '실패'로 채점했습니다. 하지만 이러한 창의적인 문제 해결 능력이야말로 우리가 테스터와 고객들로부터 들어온 이야기이며, Claude Opus 4.5를 진정한 진보로 느끼게 하는 핵심입니다.
다른 맥락에서라면, 의도된 제약을 우회하는 영리한 경로를 찾는 것은 모델이 의도치 않은 방식으로 규칙이나 목표를 '게임(Game)'화하는 보상 해킹(Reward hacking)으로 간주될 수 있습니다. 이러한 정렬 불일치(Misalignment)를 방지하는 것은 다음 섹션에서 다룰 안전성 테스트의 목표 중 하나입니다.
안전성을 향한 진보 (A step forward on safety)
시스템 카드(System Card)에서 명시했듯이, Claude Opus 4.5는 우리가 지금까지 출시한 모델 중 가장 견고하게 정렬(Aligned)된 모델이며, 모든 개발사를 통틀어 가장 잘 정렬된 프런티어 모델일 것으로 예상합니다. 이는 더 안전하고 보안성 높은 모델을 향한 우리의 흐름을 이어갑니다.
우리의 평가에서 "우려되는 행동(Concerning behavior)" 점수는 인간의 오용에 대한 협조와 모델이 자발적으로 취하는 바람직하지 않은 행동을 포함하여 매우 광범위한 정렬 불일치 행동을 측정합니다 [3].

고객들은 종종 중요한 업무에 Claude를 사용합니다. 그들은 해커나 사이버 범죄자의 악의적인 공격에도 Claude가 훈련된 대로 행동하며 문제를 피할 수 있는 "현장 감각(Street smarts)"을 갖추고 있기를 원합니다. Opus 4.5를 통해 우리는 기만적인 지시를 숨겨 모델이 유해한 행동을 하도록 속이는 프롬프트 인젝션(Prompt injection) 공격에 대한 방어력을 크게 강화했습니다. Opus 4.5는 업계의 그 어떤 프런티어 모델보다 프롬프트 인젝션으로 속이기가 어렵습니다.

참고: 이 벤치마크는 매우 강력한 프롬프트 인젝션 공격만을 포함하며, Gray Swan에서 개발 및 실행했습니다.
모든 기능 및 안전성 평가에 대한 자세한 내용은 Claude Opus 4.5 시스템 카드에서 확인하실 수 있습니다.
Claude Developer Platform의 새로운 기능
모델이 똑똑해질수록 문제를 더 적은 단계로 해결할 수 있습니다. 역추적(Backtracking)이 줄고, 불필요한 탐색이 감소하며, 추론 과정이 간결해집니다. Claude Opus 4.5는 이전 모델들보다 훨씬 적은 토큰을 사용하여 비슷하거나 더 나은 결과를 도출합니다.
하지만 작업마다 필요한 트레이드오프는 다릅니다. 개발자들은 때로는 모델이 문제에 대해 깊이 생각하기를 원하고, 때로는 더 민첩하게 반응하기를 원합니다. Claude API의 새로운 Effort(노력) 파라미터를 사용하면 시간과 비용을 최소화할지, 아니면 성능을 극대화할지 결정할 수 있습니다.
Opus 4.5를 중간 수준의 Effort로 설정하면, Sonnet 4.5가 SWE-bench Verified에서 기록한 최고 점수와 동등한 성능을 내면서도 출력 토큰은 76% 더 적게 사용합니다. 가장 높은 Effort 레벨에서는 Sonnet 4.5의 성능을 4.3% 포인트 능가하면서도 토큰 사용량은 48% 더 적습니다.

Effort 제어, 맥락 압축(Context compaction), 그리고 고급 도구 사용(Advanced tool use) 기능을 통해 Claude Opus 4.5는 더 오래 실행되고, 더 많은 일을 하며, 사람의 개입은 덜 필요로 합니다.
우리의 맥락 관리(Context management) 및 기억(Memory) 기능은 에이전트 작업의 성능을 극적으로 향상시킬 수 있습니다. 또한 Opus 4.5는 하위 에이전트(Sub-agents) 팀을 관리하는 데 매우 효과적이어서, 복잡하고 잘 조정된 다중 에이전트 시스템을 구축할 수 있게 해줍니다. 테스트 결과, 이 모든 기술을 결합했을 때 심층 연구 평가에서 Opus 4.5의 성능이 거의 15% 포인트 향상되었습니다 [4].
우리는 개발자 플랫폼을 시간이 지날수록 더욱 조합 가능(Composable)하게 만들고 있습니다. 효율성, 도구 사용, 맥락 관리에 대한 완전한 제어권을 바탕으로 여러분이 필요한 것을 정확하게 구축할 수 있는 빌딩 블록을 제공하고자 합니다.
제품 업데이트 (Product Updates)
Claude Code와 같은 제품들은 Claude Developer Platform의 업그레이드 요소들이 결합될 때 무엇이 가능한지를 보여줍니다. Opus 4.5와 함께 Claude Code는 두 가지 업그레이드를 받았습니다. 플랜 모드(Plan Mode)는 이제 더 정밀한 계획을 수립하고 철저하게 실행합니다. Claude는 사전에 명확히 하기 위한 질문을 던진 후, 실행 전에 사용자가 편집 가능한 plan.md 파일을 생성합니다.
또한 Claude Code는 이제 데스크톱 앱에서도 사용할 수 있어, 여러 개의 로컬 및 원격 세션을 병렬로 실행할 수 있습니다. 예를 들어, 하나의 에이전트는 버그를 수정하고, 다른 하나는 GitHub를 조사하며, 세 번째는 문서를 업데이트하는 식입니다.
Claude 앱 사용자들은 이제 긴 대화가 막히는 경험을 하지 않아도 됩니다. Claude가 필요에 따라 이전 맥락을 자동으로 요약하여 대화를 계속 이어갈 수 있게 합니다. 브라우저 탭 전반에서 작업을 처리하는 Claude for Chrome은 이제 모든 Max 사용자에게 제공됩니다. 지난 10월 발표한 Claude for Excel은 오늘부터 모든 Max, Team, Enterprise 사용자로 베타 액세스가 확대되었습니다. 이 모든 업데이트는 컴퓨터, 스프레드시트 사용 및 장기 실행 작업 처리에 있어 시장을 선도하는 Claude Opus 4.5의 성능을 활용합니다.
Opus 4.5에 액세스할 수 있는 Claude 및 Claude Code 사용자를 위해 Opus 전용 제한(Caps)을 제거했습니다. Max 및 Team Premium 사용자의 경우 전체 사용 한도를 늘려, 이전에 Sonnet으로 사용했던 것과 거의 동일한 양의 Opus 토큰을 사용할 수 있게 되었습니다. 우리는 여러분이 일상 업무에서 Opus 4.5를 활용할 수 있도록 사용 한도를 업데이트하고 있습니다. 이 한도는 Opus 4.5에만 적용되며, 향후 이를 능가하는 모델이 나오면 필요에 따라 한도를 조정할 예정입니다.
각주
이 결과는 모델의 여러 "시도"를 집계하여 그중 하나를 선택하는 방식인 병렬 테스트 타임 연산(Parallel test-time compute)을 사용한 것입니다. 시간 제한이 없는 경우, (Claude Code 내에서 사용된) 모델은 역대 최고의 인간 지원자와 동등한 수준을 보였습니다.
인프라 장애를 줄이기 위해 호스팅 환경을 개선했습니다. 이 변경으로 Gemini 3는 56.7%, GPT-5.1은 48.6%로 (개발사들이 보고한 수치보다) Terminus-2 하네스 사용 시 성능이 향상되었습니다.
이 평가들은 당사의 오픈소스 자동 평가 도구인 Petri의 업그레이드 진행 버전에서 실행되었습니다. 또한 Claude Opus 4.5의 초기 스냅샷에서 실행되었습니다. 최종 프로덕션 모델에 대한 평가는 다른 Claude 모델들과 비교했을 때 매우 유사한 패턴의 결과를 보여주며, 자세한 내용은 Claude Opus 4.5 시스템 카드에 기술되어 있습니다.
Fetch 기능이 활성화된 BrowseComp-Plus 버전입니다. 구체적으로, 기술 조합을 사용하지 않았을 때의 70.48%에서 사용 시 85.30%로 향상되었습니다.
방법론 (Methodology)
모든 평가는 64K 생각 예산(Thinking budget), 인터리브 스크래치패드(Interleaved scratchpads), 200K 컨텍스트 윈도우, 기본 Effort(높음), 기본 샘플링 설정(Temperature, top_p)으로 실행되었으며, 5회의 독립적인 시도를 평균 낸 결과입니다. 예외: SWE-bench Verified (생각 예산 없음) 및 Terminal Bench (128K 생각 예산). 전체 세부 사항은 Claude Opus 4.5 시스템 카드를 참조하십시오.
|함수: 주석_및_과정_설명|
번역 전략 및 톤앤매너:
원문은 Anthropic의 최상위 모델 출시를 알리는 매우 전문적이고 자신감 넘치는 글입니다. 한국의 개발자 및 기술 경영진(CTO, CEO)이 읽었을 때 위화감이 없도록 "직역"보다는 "업계 통용어"를 적극 활용하는 전문가 타겟 의역 전략을 선택했습니다.
예시: "Hand-holding" -> "일일이 지시하지 않아도", "Just gets it" -> "맥락을 완벽히 파악합니다", "Reward hacking" -> "보상 해킹".
주요 용어 처리:
Effort Parameter: "노력 매개변수"보다 개발 환경에서 더 직관적인 "Effort 파라미터"로 번역.
Agentic / Agents: "에이전트"로 음차 하되 문맥에 따라 "에이전트 워크플로우" 등으로 자연스럽게 연결.
Prompt Injection: 보안 전문 용어이므로 그대로 "프롬프트 인젝션" 사용.
항공사 사례 (Reasoning):
이 부분은 모델의 고차원적 사고를 보여주는 핵심 파트입니다. "Wait, let me check..."와 같은 독백체를 한국어 사고 과정처럼 자연스럽게 번역하여, 독자가 모델의 '생각하는 방식'을 직관적으로 느끼도록 했습니다.
포맷팅:
가독성을 위해 인용구(Blockquote)와 볼드 처리를 원문과 유사하게, 그러나 한국어 문장 구조에 맞춰 재배치했습니다.
|/함수|
