Claude Opus 4.6, 100만 토큰 컨텍스트가 바꾸는 AI 문서·코딩 작업

Claude Opus 4.6은 Anthropic이 내놓은 최신 플래그십 모델로, 오퍼스(Opus) 라인업 최초로 “100만 토큰 컨텍스트 윈도우”를 베타로 지원합니다¹. 한 번에 다뤄야 할 자료가 책 몇 권 분량으로 커질수록, AI는 보통 중요한 단서부터 흐릿해지곤 했는데요. Opus 4.6은 긴 문서에서 필요한 정보를 더 잘 “찾아내고, 유지하고, 이어서 일하는” 방향으로 크게 튜닝된 모델입니다². 이번 글에서는 100만 토큰이 실제로 어떤 일을 가능하게 하는지, 동시에 길어진 대화가 왜 위험해지는지(그리고 Anthropic이 어떻게 해결하려는지), 가격·API 변화와 주의점까지 한 번에 정리해보겠습니다.

100만 토큰 컨텍스트 윈도우: ‘한 번에 다 읽는다’의 의미

컨텍스트 윈도우는 AI가 “지금 이 대화에서 참고할 수 있는 메모리 공간” 같은 겁니다. 창이 작으면, 문서를 나눠 붙이고 요약하고 다시 붙이는 ‘쪼개기 노동’이 생깁니다. 반대로 100만 토큰이면 보고서 묶음, 계약서 뭉치, 내부 위키, 대규모 코드 설명서까지 한 요청 흐름으로 가져가 “전체 맥락을 깔고” 질문할 수 있습니다¹.

재미있는 변화는 여기서부터입니다. 예전에는 “요약해줘”가 기본 주문이었다면, 이제는 “이 12개 문서 중 서로 모순되는 조항만 찾아서 표로 정리해줘”처럼, 문서 간 교차검증이 기본기가 됩니다. 즉, AI를 ‘요약기’에서 ‘문서 수사관’으로 쓰는 장면이 늘어나는 거죠.

긴 대화가 길어질수록 멍해지는 ‘컨텍스트 로트’와 해결책

그런데 컨텍스트가 커진다고 무조건 좋은 건 아닙니다. 대화가 길어질수록 모델의 정보 처리 성능이 떨어지는 현상이 업계에서 ‘컨텍스트 로트(context rot)’로 불립니다². “앞에서 말한 핵심 조건”을 뒤에서 슬쩍 잊거나, 중요한 단서를 묻어둔 채 그럴듯한 말만 길게 하는 문제가 여기에 해당합니다.

Anthropic은 이 문제를 모델 자체 개선과 함께 ‘Compaction(컴팩션)’ 기능으로 다루고 있습니다. 컴팩션은 오래된 맥락을 자동으로 요약·압축해, 중요한 정보는 남기고 불필요한 토큰 소비는 줄이도록 돕는 방식입니다². 쉽게 말해, 대화가 길어질 때 AI가 스스로 “회의록 정리”를 하면서 계속 일하게 만드는 장치에 가깝습니다.

MRCR v2 76%: “긴 문서에서 바늘 찾기”가 실제로 좋아졌나

100만 토큰을 지원한다고 해도, 정말로 그 안에서 필요한 문장을 잘 찾아야 의미가 있습니다. 이때 자주 언급되는 테스트가 MRCR v2(긴 맥락에서 숨은 정보를 찾아내는 ‘needle in a haystack’류 평가)인데, Opus 4.6은 100만 토큰 환경에서 76%를 기록했고, 이전 세대에 가까운 Sonnet 4.5는 18.5%로 격차가 큽니다².

이 차이는 체감으로도 큽니다. 예를 들어 감사 대응, 규정 준수, 법무 검토처럼 “어딘가에 한 줄로 숨어 있는 조건”이 결과를 바꾸는 업무에서는, 요약을 잘하는 모델보다 ‘정확히 찾아내는 모델’이 훨씬 돈을 벌어다 줍니다.

코딩·에이전트 작업: Claude Code의 ‘Agent Teams’가 의미하는 것

Opus 4.6은 큰 컨텍스트만이 아니라, “오래 걸리는 자율 작업”과 “계획 수립”에 초점을 맞춰 개선됐다고 알려졌습니다². 특히 Claude Code에서는 여러 에이전트가 병렬로 일하는 Agent Teams 기능이 연구용 프리뷰로 소개됐는데, 프론트엔드/백엔드/마이그레이션처럼 역할을 나눠 동시에 진행시키는 그림입니다².

여기서 100만 토큰이 빛을 발합니다. 에이전트가 늘면 공유해야 할 맥락도 늘어납니다. 코드베이스 규칙, 기존 이슈, 릴리즈 노트, 테스트 정책이 길게 깔려 있어야 “각자 딴소리”를 덜 하거든요. 컨텍스트가 넓어질수록 에이전트 협업의 바닥 공사가 쉬워지는 셈입니다.

가격·API 체크포인트: 길게 쓰면 ‘그만큼’ 나온다

Opus 4.6은 claude.ai, API, 주요 클라우드 플랫폼에서 제공되며, 기본 요금은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 안내됩니다¹. 다만 20만 토큰을 초과하는 프롬프트에는 프리미엄 요금이 적용될 수 있어 “무작정 크게 넣기”는 비용 폭탄이 될 수 있습니다¹.

또한 출력은 최대 128,000 토큰까지 지원됩니다². 한 번에 책 한 권 분량을 뽑아낼 수 있다는 뜻이지만, 현실적으로는 “출력 길이”가 곧 비용이므로, 보고서 생성처럼 긴 출력이 필요한 작업은 구조(목차/분량/형식)를 먼저 잡고 단계적으로 뽑는 게 안전합니다.

단점과 주의사항: overthinking과 프롬프트 인젝션 리스크

성능이 좋아지면 생기는 부작용도 있습니다. Opus 4.6은 단순한 요청에도 과하게 깊이 파고드는 ‘overthinking’ 경향이 있어 응답 시간이 늘고 비용이 증가할 수 있다고 알려졌습니다¹. 이럴 때는 Effort 파라미터를 “medium”으로 두어, 속도·비용·정확도의 균형점을 잡는 것이 권장됩니다¹.

보안 측면도 중요합니다. 평가에 따르면 Opus 4.6은 이전보다 간접 프롬프트 인젝션(웹페이지·문서 속 숨은 지시로 모델을 흔드는 공격)에 약간 더 취약해졌다는 언급이 있습니다¹. 긴 컨텍스트는 곧 “외부 텍스트를 더 많이 삼킨다”는 뜻이라, 문서/웹을 붙여넣어 쓰는 팀일수록 입력 데이터 출처 관리와 시스템 프롬프트 방어가 필수입니다.

마지막으로, 모델이 강력해질수록 “대답이 그럴듯한데 틀릴 때” 더 위험해집니다. 100만 토큰은 기억력 확장이지만, 진실 판별 능력의 자동 보증은 아니니까요. 중요한 의사결정 문서는 항상 근거 문장 위치를 함께 뽑게 하고, 원문 링크·조항 번호·파일 경로 같은 ‘검증 가능한 좌표’를 결과물에 포함시키는 습관이 안전합니다.

시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...

100만 토큰 컨텍스트는 “AI가 더 똑똑해졌다”라기보다, 우리가 AI에게 일을 맡기는 방식 자체를 바꿉니다. 이제 핵심은 요약의 예술이 아니라, 거대한 자료 더미에서 정확한 근거를 뽑아내고(검색/추출), 오래 걸리는 업무를 끊기지 않게 이어가며(컴팩션/에이전트), 비용과 보안을 함께 관리하는 운영 능력입니다.

실무 팁 하나만 제안하자면, 처음부터 100만 토큰을 꽉 채우지 말고 “업무용 패키지”로 나눠 넣어보세요. 예를 들어 ‘정책 문서 세트’, ‘코드베이스 규칙+최근 PR’, ‘계약서+부속합의’처럼 묶음을 만들면, 컨텍스트가 커질수록 오히려 정리된 팀이 더 큰 이익을 가져갑니다.

참고

¹Claude Opus 4.6은 Anthropic의 플래그십 모델에 백만 토큰 컨텍스트 윈도우를 제공합니다.

²Anthropic's Claude Opus 4.6 brings 1M token context and 'agent teams' to take on OpenAI's Codex | VentureBeat