Anthropic Claude 서비스 장애 3건 기술문서 요약
Claude 응답 품질 저하의 원인
2025년 8월~9월 사이, Claude 서비스를 제공하는 인프라에서 3개의 버그가 발생하여 일부 사용자에게 품질 저하 현상이 나타났습니다. 서버 부하나 시간대 때문이 아니라, 모두 시스템의 결함에 의해 생긴 문제였습니다.
다양한 하드웨어와 글로벌 서비스 구조
Claude는 수백만 사용자에게 API, Amazon Bedrock, Google Vertex AI 등 여러 경로로 제공됩니다. AWS Trainium, NVIDIA GPU, Google TPU 등 서로 다른 하드웨어를 활용해, 지역과 수요에 맞춰 균등 서비스를 목표로 하고 있습니다. 하드웨어마다 특성이 달라 검증 과정이 복잡해집니다.
주요 버그 1: 잘못된 컨텍스트 서버 라우팅
8월 5일, 일부 요청이 1M 토큰 대용량 컨텍스트용 서버에 잘못 전달되는 실수가 발생했습니다. 8월 29일 로드 밸런싱 변경 이후 피해 범위가 크게 늘어나, 짧은 컨텍스트 질문도 대용량