Claude Opus 4.6 Fast Mode 전반적 설명(개념·특징·비용·활용 가이드)
한 줄 정의
Fast mode는 '다른 모델'이 아니라 Claude Opus 4.6에 대해 응답 속도를 우선하도록 우선순위를 조정한 고속 옵션(연구 프리뷰)이다.1

핵심 특징
Fast mode의 목적은 지능 향상이 아니라 지연시간(latency) 감소다. 그래서 같은 Opus 4.6을 쓰되, 더 빠르게 답이 나오도록 운용한다.3
공개 안내 기준으로 출력 토큰 속도가 최대 2.5배까지 빨라질 수 있다고 설명된다.1 특히 스트리밍을 켜면, "첫 글자가 빨리 뜨고 끝까지 빨리 나오는" 체감 개선이 더 분명해진다(토큰이 더 빠르게 흘러오기 때문).1
트레이드오프(가장 중요)
Fast mode는 속도를 사는 대신, 토큰 단가가 올라간다. 비용 효율이 아니라 반응성이 우선인 선택지다.3
운영상 가장 큰 함정은 "중간 전환"이다. 대화 도중 fast로 바꾸면, 이미 쌓인 기존 대화 컨텍스트 전체가 fast 요금의 비캐시 입력(uncached input)으로 다시 과금될 수 있다. 긴 대화일수록 전환 비용이 갑자기 커진다.3
가격(예시)
공개 문서 기준으로 Fast mode(Opus 4.6)는 표준보다 비싸며, 시작 가격 예시는 입력 $30/MTok, 출력 $150/MTok이다.3 또한 컨텍스트가 더 길어지면 더 비싸질 수 있으며(예: 구간별 단가 상향), "항상 위 가격이 끝"이라고 생각하면 위험하다.3
일반 Opus 4.6 요금이 입력 $5 / 출력 $25 (100만 토큰당).
Fast Mode는 입력 $30 / 출력 $150. 정확히 6배다.
200K 토큰 넘는 확장 컨텍스트에서는 12배까지 올라간다.
사용 권장 시나리오
Fast mode는 사람이 기다리면서 계속 주고받는 작업에서 효과가 크다. 코드 수정→실행→피드백을 빠르게 반복하거나, 라이브 디버깅처럼 흐름이 끊기면 생산성이 급락하는 상황, 마감 직전 대응처럼 몇 분의 지연도 아까운 상황이 대표적이다.3
반대로 장시간 자율 실행(에이전트가 오래 달리는 작업), 배치/CI처럼 사람이 실시간으로 붙어있지 않은 작업, 비용 민감 작업은 표준 모드가 보통 더 낫다.3
다른 '속도' 옵션과의 차이(예: effort/생각 시간)
Fast mode는 "같은 Opus 4.6 품질을 유지하면서 더 빠르게(대신 더 비싸게)"가 핵심이다.3
effort(생각 시간) 조절은 접근이 다르다. effort를 낮추면 더 빨라질 수 있지만, 복잡한 과제에서는 생각량이 줄어 품질이 흔들릴 수 있다.3
둘은 충돌 관계가 아니라 조합 가능하다. 단순한 작업에서는 fast mode + 낮은 effort로 "가장 빠른 체감"을 노릴 수 있고, 복잡한 작업에서는 fast mode만 켜서 "품질 유지 + 지연 감소"에 집중할 수 있다.3
이용/가용성(대표 사례)
Anthropic 기준으로 fast mode는 연구 프리뷰라서 정책·가격·가용성이 바뀔 수 있다.2
Claude Code(CLI/VS Code)에서는 /fast로 토글한다. 설정으로 켜둘 수도 있고, 세션 간 유지된다. 꺼도 모델은 Opus 4.6에 남아 있으며(원래 모델로 자동 복귀하지 않음), 다른 모델로 바꾸려면 별도 모델 전환을 해야 한다.3
추가 과금(extra usage)이 필요할 수 있고, Team/Enterprise는 관리자가 fast mode 및 extra usage를 활성화해야 할 수 있다.3
문서 기준으로 서드파티 클라우드(예: Bedrock/Vertex/Azure Foundry)에서는 제공되지 않을 수 있다는 제한이 명시돼 있다.3
또한 일부 플랫폼은 별도 프리뷰로 제공한다. 예를 들어 GitHub Copilot에서는 점진적 롤아웃 형태로 모델 선택기에서 fast를 고를 수 있고, 특정 플랜(예: Pro+/Enterprise)에서 제공된다고 안내한다.1
레이트리밋/폴백 동작
fast에는 fast 전용 레이트리밋이 따로 있을 수 있다. 한도에 걸리거나 extra usage 크레딧이 부족해지면, 작업은 끊기지 않고 표준 Opus 4.6으로 자동 폴백될 수 있으며, 쿨다운이 끝나면 fast가 자동으로 다시 켜지는 방식으로 안내된다.3
실전 체크리스트
속도가 진짜 병목인지 먼저 확인한다. 모델이 느린 게 아니라 프롬프트가 과하게 길거나 컨텍스트가 불필요하게 커진 문제일 수 있다.
fast를 쓸 거라면 대화 "중간"이 아니라 시작부터 켠다. 전환 재과금 리스크를 피하는 게 핵심이다.3
세션이 길어져 컨텍스트가 비대해지면, 작업 단위로 새 세션을 분리한다. 특히 fast에서는 "긴 대화 + 중간 전환"이 비용 폭탄이 되기 쉽다.3
항상 비용을 모니터링한다. fast는 속도 체감이 큰 만큼, "생각 없이 켜두는 습관"이 가장 비싸다.3
요약 5줄
Fast mode는 Opus 4.6을 더 빨리 돌리기 위한 고속 옵션이지, 다른 모델이 아니다.3
목표는 지연시간 감소이며, 공개 기준 최대 2.5배 빠른 출력 토큰 속도를 내세운다.1
대신 토큰 단가가 올라가고, 대화 중간 전환 시 기존 컨텍스트가 fast 비캐시 입력으로 재과금될 수 있다.3
대화형 반복 작업(코드 반복, 라이브 디버깅, 마감 임박)에 적합하고, 배치/CI·비용 민감 작업엔 표준이 보통 낫다.3
프리뷰 기능이라 가용성/가격이 바뀔 수 있고, 레이트리밋 초과 시 표준 Opus 4.6으로 폴백될 수 있다.3
참고
1Fast mode for Claude Opus 4.6 is now in preview for GitHub Copilot