Claude Opus 4.5 출시와 요즘 LLM 평가가 유난히 어려운 진짜 이유

새로운 대형 언어 모델이 나왔다는 소식은 이제 일상이 됐지만, 가끔은 "이번엔 진짜 다르다"고 느껴지는 순간이 있습니다. Anthropic의 Claude Opus 4.5도 그런 기대를 한 몸에 받고 등장했습니다. 코딩, 에이전트, 컴퓨터 사용에서 "세계 최고 수준"이라고 스스로 소개할 만큼 자신감도 넘칩니다.

하지만 막상 실제로 써보면, 숫자와 슬로건만으로는 잘 느껴지지 않는 부분이 있습니다. 특히 이미 충분히 뛰어난 이전 세대 모델들과 비교해 "실제로 뭐가 얼마나 달라졌는지" 체감하기가 점점 더 어려워지고 있습니다.

이 글에서는 Claude Opus 4.5의 특징과 가격, 사용 경험, 그리고 요즘 LLM 평가가 왜 이렇게 어려워졌는지까지 한 번에 정리해보려 합니다. 여러 모델 사이에서 고민 중인 분들, 새로운 모델이 나왔다고 할 때마다 "이번엔 진짜 써봐야 하나?" 싶은 분들께 도움이 될 이야기입니다.

Claude Opus 4.5 한눈에 보기: 스펙과 가격, 그리고 포지셔닝

Anthropic는 Claude Opus 4.5를 내놓으며 "코딩, 에이전트, 컴퓨터 사용에 최적화된 최고의 모델"이라고 소개했습니다. 최근 며칠 사이에만 OpenAI의 GPT-5.1-Codex-Max, Google의 Gemini 3 같은 경쟁작이 줄줄이 나온 상황이라, 일종의 왕좌 탈환 선언에 가깝습니다.

먼저 눈에 띄는 건 스펙입니다. Opus 4.5는 200,000 토큰 컨텍스트 길이를 지원합니다. Claude Sonnet와 동일한 수준으로, 긴 문서 작업이나 대규모 코드베이스를 한 번에 다루는 데 충분한 여유를 제공합니다. 출력 역시 최대 64,000 토큰까지 가능해서, 한 번에 긴 리포트나 방대한 코드 생성을 처리할 수 있습니다.

지식 기준 시점은 2025년 3월입니다. 같은 4.5 세대인 Sonnet이 1월, Haiku가 2월인 것을 감안하면, 현재 시점 기준으로는 Anthropic 모델 중 가장 최근 정보에 가까운 편입니다. 최신 이슈나 기술 동향을 다루는 작업에서 조금이라도 더 신선한 데이터를 기대할 수 있다는 뜻입니다.

흥미로운 부분은 가격입니다. 이전 Opus는 입력 100만 토큰당 15달러, 출력 75달러라는 꽤 높은 가격대였습니다. 이번 Opus 4.5는 입력 5달러, 출력 25달러로 크게 낮췄습니다. 여전히 GPT-5.1 계열이나 Gemini 3 Pro보다는 약간 비싸지만, "프리미엄 플래그십 모델"이라는 포지션을 감안하면 이전보다는 훨씬 현실적인 수준으로 내려온 셈입니다.

Anthropic 내부 라인업으로 보면, Sonnet 4.5는 3달러/15달러, Haiku 4.5는 1달러/5달러라서, Opus는 "비싸지만 최고 사양"을 원하는 팀이나 개발자를 노리고 있는 구성이 됩니다. 즉, 본격적인 프로덕션용 에이전트, 복잡한 개발 보조, 대형 문서 처리 등에서 "정말 성능이 중요하다면 이쪽을 보라"는 메시지에 가깝습니다.

새롭게 추가된 기능들: effort, 컴퓨터 사용, 생각 보존

단순히 파라미터만 키운 모델이 아니라, 실사용 관점에서 유용한 기능들이 몇 가지 추가되었습니다. 그 중 가장 눈에 띄는 건 effort라는 새로운 파라미터입니다.

Opus 4.5는 기본값이 high로 설정되어 있는데, 이를 medium이나 low로 낮추면 답변 속도를 더 빠르게 가져갈 수 있습니다. 정밀한 추론이나 복잡한 설계가 필요한 작업이라면 high로 두고, 단순 질의응답, 요약, 가벼운 코드 수정 정도라면 medium이나 low로 조정해 응답 속도를 높이는 식입니다. 사실상 "생각을 얼마나 깊게 할지"를 조절하는 손잡이를 제공하는 셈이라, 비용·속도·품질의 균형을 직접 맞추고 싶은 사용자에게 매력적인 옵션입니다.

또 하나 흥미로운 부분은 향상된 컴퓨터 사용 기능입니다. 특히 줌(zoom) 도구가 추가되어, 화면의 특정 영역을 확대해서 자세히 살펴보도록 요청할 수 있습니다. 이는 화면 자동화, UI 테스트, 리모트 작업 보조 같은 시나리오에서 꽤 의미 있는 변화입니다. 예전에는 전체 화면 캡처만 던져주고 "대충 알아맞혀라"에 가까웠다면, 이제는 모델이 "저 부분을 확대해서 다시 보여줘"라고 요구할 수 있는 구조로 진화하고 있습니다.

Anthropic가 밝힌 또 다른 개선점은 "이전 assistant 턴의 생각 블록을 기본으로 컨텍스트에 유지한다"는 부분입니다. 과거 모델에서는 내부 추론을 담은 일부 정보가 대화가 진행되며 버려졌지만, Opus 4.5에서는 이를 유지해 더 일관된 추론과 맥락 이어가기를 기대할 수 있습니다. 긴 세션에서 전략을 세우거나, 하나의 프로젝트를 단계별로 진행하는 작업에서 특히 체감될 수 있는 변화입니다.

실제 개발에 써보니: "와, 완전 다르다!"와 "생각보다 비슷한데?" 사이

가장 설득력 있는 평가는 늘 그렇듯 실제 사용 경험에서 나옵니다. 한 개발자는 주말 동안 프리뷰 버전의 Claude Opus 4.5를 사용해 sqlite-utils의 새로운 알파 버전을 작업했습니다. 20개의 커밋, 39개 파일 변경, 2,000줄이 넘는 추가와 1,000줄이 넘는 삭제가 이틀 동안 이루어졌고, 이 과정의 대부분을 Opus 4.5가 도와줬습니다.

복잡한 신규 기능 구현까지 함께 진행했을 정도니, "실제 프로덕션급 코딩 파트너"로서의 역량은 분명 입증한 셈입니다. 코드를 이해하고, 리팩터링을 제안하고, 새로운 기능을 설계하고, 테스트까지 돕는 작업 흐름이 자연스럽게 이어졌다고 볼 수 있습니다.

그런데 여기서 흥미로운 반전이 나옵니다. 프리뷰가 만료된 뒤 남은 작업을 마무리하기 위해 동일한 프로젝트를 Claude Sonnet 4.5로 이어서 진행했는데, 작업 속도와 효율이 거의 그대로 유지되었다는 점입니다. 기대와 달리 "와, 완전히 다른 차원의 속도와 품질"이라기보다는 "충분히 좋은 기존 모델과 체감상 비슷한 수준"에 가까웠던 것입니다.

물론 이것이 Opus 4.5가 Sonnet보다 별로라는 뜻은 아닙니다. 다만 실제 개발 현장에서 진행되는 일반적인 작업들만으로는, 두 모델 사이의 미묘한 차이를 객관적으로 드러내기가 생각보다 쉽지 않다는 점이 드러난 사례입니다. 이미 Sonnet 4.5 수준의 모델이 상당히 강력하기 때문에, 그 위에 쌓인 추가적인 개선이 "일상적 개발 시나리오"에서는 잘 안 보일 수도 있다는 뜻이기도 합니다.

LLM 평가는 왜 점점 더 어려워질까? 벤치마크의 한계

예전에는 새로운 모델이 나오면 "이제 이건 정말 다른 세계다" 싶은 순간이 분명히 존재했습니다. 할 수 없던 일을 갑자기 할 수 있게 되면서, 개선 폭이 체감 차이로 바로 다가왔습니다. 하지만 지금의 최전선 LLM들은 이미 기본 성능이 상당히 높고, 그 위에서 경쟁하다 보니 개선이 점점 "작고 정교한 차이"로 바뀌고 있습니다.

벤치마크를 보면 이런 상황이 더 분명해집니다. SWE-bench Verified 같은 코딩 관련 벤치마크에서 모델 간 격차는 종종 한 자릿수 퍼센트 포인트에 그칩니다. 문제는, "5% 더 잘한다"는 숫자가 우리가 매일 마주하는 실제 업무에서 어떤 의미인지 직관적으로 와 닿지 않는다는 점입니다.

더구나 모델 성능은 프롬프트 스타일, 도메인, 작업 흐름, 사용자 습관에 따라 크게 달라집니다. 한 사람에게는 "인생을 바꾼 개선"으로 느껴지는 부분이, 다른 사람에게는 "거기서 거기"로 보일 수도 있는 상황입니다. 결국 벤치마크 점수만 보고 모델을 고르기 어려운 시대가 되어가고 있습니다.

이미지 생성 쪽에서는 여전히 눈에 띄는 도약이 가끔 나오긴 합니다. 예를 들어 기존 모델들이 거의 실패하던 "실제 사용 가능한 인포그래픽"을 꽤 그럴듯하게 생성해내는 모델이 등장했을 때처럼 말이죠. 하지만 텍스트 기반의 LLM에서는 이런 극적인 차이보다는, "조금 더 정확한 추론", "조금 더 긴 문맥 처리", "조금 더 안전한 응답" 같은 점진적 개선이 주류가 되고 있습니다.

나만의 '한계 테스트' 모으기: 새 모델 검증을 위한 실질적인 전략

이런 시대에 LLM을 제대로 평가하려면, 남들이 만들어 놓은 벤치마크만 바라보는 것으로는 충분하지 않습니다. 결국 중요한 건 "내가 하는 일에서, 내 작업 흐름에서, 실제로 어떤 차이가 나는가"이기 때문입니다.

가장 좋은 방법 중 하나는, 스스로의 "한계 테스트 컬렉션"을 만드는 것입니다. 즉, 다음과 같은 태스크를 따로 모아 두는 방식입니다.

과거에 모델에게 시도해봤지만 잘 못 풀었던 문제
결과물이 애매하거나 반쯤 실패했던 복잡한 요청
정교한 추론, 복잡한 도메인 지식, 여러 단계의 계획 수립이 필요한 작업

이런 것들을 노트나 문서에 정리해 두고, 새로운 모델이 나올 때마다 그대로 다시 던져보는 겁니다. 이때 중요한 건 "조건을 최대한 동일하게 유지하는 것"입니다. 같은 프롬프트, 같은 입력, 같은 목표를 가지고 새 모델과 이전 모델을 비교하면, 벤치마크 숫자보다 훨씬 현실적인 느낌을 얻을 수 있습니다.

많은 AI 실무자들이 이런 습관을 이미 가지고 있고, "모델이 실패한 사례를 따로 저장해두라"는 조언도 자주 등장합니다. 하지만 실제로 꾸준히 관리하는 사람은 많지 않습니다. 새로운 모델 평가를 진지하게 하고 싶다면, 지금이라도 이런 개인 벤치마크를 만들어 두는 것이 큰 자산이 될 것입니다.

AI 회사들이 해줬으면 하는 것: "이전 모델은 못했는데, 이제 되는 것"

LLM 제공사에도 바라는 점이 있습니다. 새 모델을 출시할 때마다 벤치마크 성적표와 멋진 그래프는 많이 보여주지만, 정작 사용자에게 가장 설득력 있는 정보는 꽤 단순할 수 있습니다.

예를 들어 이런 식입니다.

"Sonnet 4.5에서는 실패했지만 Opus 4.5에서는 성공하는 실제 프롬프트 예시"
"이전 세대 모델이 구조적으로 해결하지 못하던 유형의 문제인데, 이제는 해결 가능해진 사례"
"특정 도메인(예: 법률 문서 분석, 대규모 리팩터링, 복잡한 데이터 파이프라인 설계)에서 실제로 무엇을 새로 할 수 있게 되었는지 보여주는 데모"

이런 사례는 단순한 퍼센트 개선보다 훨씬 직관적입니다. "이제 이 정도 수준의 작업까지 맡길 수 있구나"라는 기준을 잡는 데도 큰 도움이 됩니다. 사용자의 기대 관리 차원에서도, 그리고 실무자 입장에서 도입 여부를 판단하는 데도 매우 유용합니다.

Claude Opus 4.5 같은 모델이 나올 때, "MMLU에서 몇 점 올랐다"보다 "이 프롬프트는 이전 세대에서 안 됐는데 지금은 된다"는 한 줄이 더 강력한 메시지가 될 수 있습니다. 앞으로 AI 기업들이 이런 식의 '현실적 비교 자료'를 더 많이 제공해주길 기대해볼 수 있겠습니다.

여전히 남은 안전 문제: 프롬프트 인젝션은 완전히 해결된 게 아니다

Anthropic는 Opus 4.5에서 안전성과 프롬프트 인젝션 저항성이 크게 향상되었다고 강조합니다. "프롬프트 인젝션 공격에 대해 업계 다른 최전선 모델들보다 더 강하다"는 설명도 덧붙였습니다.

하지만 세부 설명을 들여다보면, 여전히 주의해야 할 지점이 남아 있습니다. 단일 프롬프트 인젝션 시도에 대해서도 대략 20번 중 1번은 여전히 성공한다는 의미가 숨어 있고, 공격자가 여러 형태의 인젝션을 반복 시도할 수 있다면 결국 성공 확률이 3분의 1 수준까지 올라갈 수 있다는 해석이 가능해집니다.

이 말은 곧, "모델이 프롬프트 인젝션에 절대 안 속한다"는 식의 기대는 아직 이르다는 뜻입니다. 모델 차원에서 방어력을 높이는 노력은 중요하지만, 애플리케이션 설계 단계에서부터 "언젠가는 속을 수 있다"는 전제를 깔고 설계해야 안전합니다.

외부에서 들어오는 컨텐츠를 그대로 모델에게 던지지 않는 구조, 중요한 시스템 명령과 사용자 입력을 확실히 분리하는 메커니즘, 모델이 생성한 결과를 무조건 신뢰하지 않고 추가 검증하는 파이프라인 설계가 여전히 필수입니다. Opus 4.5처럼 방어력이 개선된 모델을 쓰더라도, 아키텍처 차원에서의 보안 설계는 절대 포기해서는 안 되는 이유입니다.

작은 즐거움도 잊지 말자: '자전거 타는 펠리컨'과 같은 실험들

흥미롭게도, 이런 최전선 모델 비교에서 의외로 차이가 잘 드러나는 영역이 있습니다. 바로 "웃기지만 미묘하게 어려운 요청들"입니다. 예를 들어 "자전거를 타는 펠리컨을 자세한 스타일로 그려달라" 같은 복잡한 프롬프트는, 모델의 상상력, 공간 감각, 세부 묘사 능력을 동시에 시험하는 재미 있는 테스트가 됩니다.

Claude Opus 4.5에 이런 프롬프트를 던져보면, 기본 설정에서도 꽤 좋은 퀄리티의 이미지를 뽑아내고, 프롬프트를 조금 더 세밀하게 조정하면 훨씬 나아진 결과를 보여줍니다. 같은 프롬프트를 Gemini 3 Pro나 GPT-5.1-Codex-Max 계열에 던져보면, 각 모델의 개성이 은근히 드러나는 것도 흥미로운 부분입니다.

물론 업무에 직접 도움이 되는 테스트는 아닐 수 있지만, 이런 실험들은 모델의 강점과 약점을 감각적으로 파악하는 데 꽤 좋은 도구가 됩니다. 그리고 무엇보다, 이런 시도 자체가 AI를 다루는 일을 조금 더 즐겁게 만들어 주기도 합니다.

마무리: Claude Opus 4.5 시대, 우리가 가져가야 할 관점

정리해보면, Claude Opus 4.5는 분명히 강력한 플래그십 모델입니다. 넉넉한 컨텍스트, 긴 출력, 합리적으로 내려간 가격, effort 파라미터와 향상된 컴퓨터 사용 기능까지, 실제 업무에 투입하기 좋은 요소들이 많이 담겨 있습니다.

하지만 이미 Sonnet 4.5 같은 기존 모델들이 워낙 뛰어나기 때문에, 일상적인 개발과 문서 작업만으로는 "압도적인 차이"를 체감하기 어려울 수도 있습니다. 이건 Opus 4.5만의 문제가 아니라, 전체 LLM 생태계가 성숙 단계에 접어들면서 나타나는 공통적인 현상입니다.

그래서 앞으로 중요한 건 세 가지 관점입니다.

첫째, 벤치마크 점수만 보지 말고, 나만의 "한계 태스크"를 모아서 새 모델을 직접 시험해보는 것. 둘째, AI 회사들이 "이전 모델은 못했는데 이번엔 할 수 있는 구체적 작업"을 더 솔직하고 명확하게 보여주기를 요구하는 것. 셋째, 아무리 안전성이 개선되었다고 해도, 프롬프트 인젝션과 같은 공격 가능성을 전제로 애플리케이션을 설계하는 것.

새 모델이 나올 때마다 "이번엔 진짜 써야 하나?"라는 고민을 하게 되지만, 결국 중요한 질문은 한 가지입니다. "이 모델이, 내가 하는 일을 어제보다 더 잘하게 만들어주느냐?" Claude Opus 4.5는 그 질문에 "그럴 가능성이 크다"고 답하는 모델입니다. 이제 남은 건, 여러분의 실제 태스크로 직접 시험해 보는 일일지도 모릅니다.

출처 및 참고 : Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult