Anthropic Claude 서비스 장애 3건 기술문서 요약

Claude 응답 품질 저하의 원인

2025년 8월~9월 사이, Claude 서비스를 제공하는 인프라에서 3개의 버그가 발생하여 일부 사용자에게 품질 저하 현상이 나타났습니다. 서버 부하나 시간대 때문이 아니라, 모두 시스템의 결함에 의해 생긴 문제였습니다.

다양한 하드웨어와 글로벌 서비스 구조

Claude는 수백만 사용자에게 API, Amazon Bedrock, Google Vertex AI 등 여러 경로로 제공됩니다. AWS Trainium, NVIDIA GPU, Google TPU 등 서로 다른 하드웨어를 활용해, 지역과 수요에 맞춰 균등 서비스를 목표로 하고 있습니다. 하드웨어마다 특성이 달라 검증 과정이 복잡해집니다.

주요 버그 1: 잘못된 컨텍스트 서버 라우팅

8월 5일, 일부 요청이 1M 토큰 대용량 컨텍스트용 서버에 잘못 전달되는 실수가 발생했습니다. 8월 29일 로드 밸런싱 변경 이후 피해 범위가 크게 늘어나, 짧은 컨텍스트 질문도 대용량 서버에서 처리되어 품질이 떨어졌습니다.

주요 버그 2: 토큰 생성 오류에 의한 응답 변조

8월 25일, TPU 서버의 설정 오류로 토큰 생성 로직이 비정상적으로 동작해, 영어 질문에도 갑자기 태국어나 중국어 글자가 섞이거나, 코드에 문법 오류가 나는 현상이 생겼습니다.

주요 버그 3: XLA:TPU 컴파일러의 잘못된 토큰 선택

텍스트 생성 과정의 최적화 작업 중, XLA:TPU 컴파일러의 미묘한 결함이 드러나 Claude Haiku 3.5 등 일부 모델에서 확률적으로 가장 높은 토큰이 누락되고 엉뚱한 결과가 만들어지는 일이 발생했습니다. 이 오류는 배치 크기, 모델 설정 등 여러 조건에서 불규칙적으로 나타났습니다.

버그 탐지의 어려움

전통적 테스트와 벤치마크 평가는 문제를 제대로 포착하지 못했습니다. 모델이 잘못된 응답에서 스스로 회복하거나, 증상이 사용자마다 달라 피드백이 모호하게 들어온 탓에 원인 추적이 지연되었습니다. 내부 개인정보 보호 정책도 원인 분석에 한계로 작용했습니다.

버그의 해결과 예방을 위한 전략 변화

향후 Claude 품질 관리를 위해 더 민감한 판별 테스트를 개발하고, 실서비스 환경에 맞춰 연속 검증을 확대합니다. 커뮤니티 피드백을 빠르게 조치할 수 있는 도구도 강화하며, 사용자와 개발자들의 직접적인 신고와 제안을 적극적으로 수집할 계획입니다.

XLA:TPU 버그의 기술적 속사정

토큰 확률 계산을 수행하는 과정에서, 정밀도(bf16 vs fp32)가 맞지 않아 가장 높은 확률의 토큰이 누락되는 사례가 있었습니다. 성능 개선을 위해 근사적 top-k 연산을 썼지만, 일부 환경에서 이 연산이 틀린 결과를 반환한다는 복잡한 버그가 있었고, 결국 정밀 top-k로 대체하여 안정성을 확보했습니다.

사용자 커뮤니티의 역할

서비스 품질 문제를 조기에 발견하고 개선하기 위해서는, 사용자가 경험한 오류와 비정상 응답 샘플을 구체적으로 보고하는 것이 매우 중요합니다. 다양한 평가 방식과 실제 사례가 개발사 내부 점검을 보완해줍니다.

출처 및 참고 : A postmortem of three recent issues \ Anthropic