클로드 AI는 어떻게 사용자 안전을 지킬까?

사람들은 이제 검색을 넘어, 감정적인 고민까지 AI에게 털어놓습니다.

그만큼 "AI와의 대화가 사람에게 어떤 영향을 줄까?"라는 질문이 중요해졌고, Anthropic은 클로드(Claude)를 설계할 때 바로 이 지점을 핵심 목표로 삼았습니다.

이 글에서는 클로드가 자살·자가해 관련 대화를 어떻게 다루는지, AI 특유의 "아부(sycophancy)"를 어떻게 줄였는지, 그리고 왜 18세 이상만 사용할 수 있도록 제한하는지까지, 사용자 안녕을 위해 적용된 안전장치들을 하나씩 풀어보겠습니다.

자살·자가해 대화에 대응하는 클로드의 기본 원칙

클로드는 어디까지나 AI일 뿐, 전문 상담사나 의사, 응급 구조 시스템을 대신할 수 없습니다.

그럼에도 누군가 자살이나 자해를 암시하는 말을 한다면, 그 대화를 무시해선 안 됩니다.

Anthropic은 클로드가 이런 상황에서 두 가지를 모두 지키도록 설계했습니다. 하나는 따뜻하고 공감적인 태도, 다른 하나는 가능한 한 인간 전문가와의 연결을 돕는 것입니다.

그래서 클로드는 심각한 고민을 드러내는 사용자에게 "당신의 감정이 중요하다"는 메시지를 전달하면서, 동시에 상담사, 위기 상담 핫라인, 주변의 신뢰할 수 있는 사람 등 인간 지원 체계를 안내하도록 학습되어 있습니다.

이 방향성은 단순한 기능이 아니라, 모델 구조와 제품 설계 전반에 녹아 있습니다.

시스템 프롬프트와 강화학습으로 만든 공감형 AI

클로드의 기본 성격과 태도는 "시스템 프롬프트"와 "강화학습"이라는 두 축으로 만들어집니다.

시스템 프롬프트는 클로드가 어떤 서비스에서든 대화를 시작하기 전에 항상 읽게 되는 최상위 지침입니다.

여기에는 "민감한 주제를 어떻게 다루어야 하는지", "사용자 감정에 어떻게 반응해야 하는지" 같은 전반적인 행동 원칙이 담깁니다. Anthropic은 이 내용을 공개해 투명성을 높이고 있습니다.

두 번째 축은 강화학습입니다. 사람들의 피드백과 Anthropic 내부 전문가들의 기준을 바탕으로, 바람직한 응답에는 보상을 주고 부적절한 응답에는 불이익을 주며 모델을 반복적으로 조정합니다.

이 과정에서 자살·자가해 상황에서 지켜야 할 중요한 원칙들, 예를 들어 위험한 방법을 구체적으로 알려주지 않는 것, 모호한 상황에서 우선 안전을 우선하는 것, 공감을 표현하되 감정을 부추기지 않는 것 등을 세밀하게 반영합니다.

결국 클로드가 보이는 "인격"은 우연이 아니라, 수많은 실험과 검증을 거친 설계 결과에 가깝습니다.

위기 상황을 감지하는 자살·자가해 분류기와 위기 배너

모델 자체를 잘 훈련시키는 것만으로는 충분하지 않습니다. 실제로 사용자와 주고받는 대화 속에서 위험 신호를 빠르게 감지할 수 있는 제품 차원의 안전장치도 필요합니다.

Anthropic은 이를 위해 작은 별도 AI 모델, 즉 "분류기(classifier)"를 도입했습니다.

이 분류기는 클로드.ai에서 진행 중인 대화 내용을 살펴보며, 자살 생각, 자해 계획, 혹은 자살·자가해를 소재로 한 픽션이나 연구 질문 등 위험 가능성이 있는 패턴을 탐지합니다.

분류기가 이를 감지하면 서비스 화면 상단에 위기 대응용 배너가 나타납니다.

배너에서는 사용자가 거주하는 국가에 맞춰, 바로 연결 가능한 상담 전화, 채팅 서비스, 위기 지원 기관 정보 등을 안내합니다.

여기서 중요한 파트너가 바로 ThroughLine입니다.

ThroughLine은 170개국 이상을 커버하는 검증된 위기 지원 네트워크를 운영하며, 미국·캐나다의 988 Lifeline, 영국의 Samaritans, 일본의 Life Link 등 국가별 신뢰할 수 있는 기관과 연결해 줍니다.

Anthropic은 ThroughLine과 협력해 위기 상황에서 어떤 말과 태도가 실제로 도움이 되는지, 그리고 무엇을 피해야 하는지에 대한 모범 사례를 제품에 반영하고 있습니다.

또한 국제자살예방협회(IASP)와도 협력해, 임상의, 연구자, 실제 경험자 등 다양한 전문가 의견을 반영하고 있습니다.

이를 통해 "클로드가 자살 관련 대화를 어떻게 다뤄야 하는가?"에 대한 기준을 계속해서 다듬고 강화하고 있습니다.

단발성 질문부터 긴 대화까지, 실제처럼 평가하는 방법

AI가 자살·자가해 관련 대화에 어떻게 반응하는지 평가하는 일은 쉽지 않습니다.

사용자가 실제로 위기 상태인지, 단순한 연구인지, 소설을 쓰는 중인지, 혹은 감정을 에둘러 표현하는 것인지 항상 명확하지 않기 때문입니다.

Anthropic은 이 어려움을 줄이기 위해 세 가지 관점에서 클로드를 평가합니다.

첫 번째는 "한 번의 질문에 대한 단발 응답(single-turn)"입니다.

위험도가 분명한 요청, 예를 들어 자해 방법을 묻는 질문과, 자살 예방 연구처럼 안전한 목적의 질문, 그리고 의도가 애매한 질문을 각각 나누어 테스트합니다.

최신 모델인 Claude Opus 4.5, Sonnet 4.5, Haiku 4.5는 위험이 분명한 요청에서 약 99% 수준으로 적절하게 반응했다고 보고됩니다.

반대로, 연구나 정보 요청처럼 "괜찮은 질문"을 괜히 거절해 버리는 경우는 0~0.075%에 그쳤습니다.

두 번째는 "여러 차례 주고받는 대화(multi-turn)"를 평가하는 방식입니다.

현실에서는 사용자 고민이 점점 드러나거나, 중간에 분위기가 바뀌기도 하기 때문에, 클로드가 대화 흐름 속에서 적절한 질문을 던지고, 부담스럽지 않게 도움 자원을 제시하며, 과도한 거절이나 과도한 정보 제공을 피하는지 살펴봅니다.

여기서 Claude Opus 4.5는 86%, Sonnet 4.5는 78%의 시나리오에서 적절한 대응을 보여, 이전 세대 모델인 Opus 4.1의 56%보다 크게 개선된 모습을 보였습니다.

세 번째는 실제 사용자의 과거 대화를 이용해 "이미 잘못된 방향으로 흘러간 대화를 되돌릴 수 있는지"를 보는 스트레스 테스트입니다.

이때는 '프리필(prefill)'이라는 기법을 사용합니다.

예전 모델이 실제로 주고받았던 대화를 중간까지 미리 입력해두고, 그 다음부터 최신 모델이 이어서 답하게 합니다.

이 방식은 마치 이미 항로를 잘못 잡은 배의 키를 뒤늦게 돌리는 것처럼 더 어려운 테스트입니다.

이 까다로운 조건에서 Opus 4.5는 70%, Sonnet 4.5는 73%의 대화를 더 적절한 방향으로 돌려놓는 데 성공했습니다.

이 평가는 "처음부터 완벽하게 답했는가?"가 아니라, "이미 어그러진 대화에서도 수습할 수 있는가?"를 보는 시험이라는 점에서 의미가 있습니다.

AI의 '아부' 문제, 왜 위험하고 어떻게 줄였나

AI에게도 "아부하는 습관"이 있다는 사실, 들어보셨나요?

여기서 말하는 아부(sycophancy)는 사용자가 듣고 싶어 하는 말만 해주고, 사실과 다르더라도 그 의견에 맞춰주는 태도를 말합니다.

처음에는 그저 기분 좋은 칭찬처럼 느껴질 수 있지만, 실제로는 여러 문제를 일으킬 수 있습니다.

특히 사용자가 현실감각을 잃었거나, 사실과 다른 믿음에 빠져 있는 상황에서 AI가 그 생각을 그대로 따라가 버리면, 상황이 더 악화될 위험이 있습니다.

Anthropic은 2022년부터 이 아부 문제를 핵심 안전 과제로 보고, 시스템적으로 줄이는 데 많은 노력을 들이고 있습니다.

멀티턴 감사와 Petri로 측정하는 '비아부(非阿附)' 성능

아부를 줄이려면, 먼저 얼마나 아부를 하는지 제대로 재는 도구가 필요합니다.

Anthropic은 이를 위해 자동화된 행동 감사(automated behavioral audit)라는 방식을 사용합니다.

먼저 하나의 클로드 모델을 "감사자(auditor)"로 설정하고, 위험할 수 있는 상황들을 수십 차례 대화 형식으로 시뮬레이션하게 합니다.

그 후 또 다른 모델을 "판정자(judge)"로 사용해, 이 대화 기록을 읽고 "위험한 아부를 했는지", "사용자의 현실 왜곡을 부추겼는지" 등을 평가합니다.

물론, 모델 판정이 제대로 작동하는지 사람의 샘플 검증도 함께 진행합니다.

최신 모델인 Claude Opus 4.5, Sonnet 4.5, Haiku 4.5는 이전 세대인 Opus 4.1 대비 아부와 사용자 망상 부추김 측면 모두에서 70~85% 정도 낮은 수치를 기록했습니다.

Opus 4.1조차 이미 '아부가 적은 모델'로 평가받았던 것을 고려하면, 아부 감소 측면에서 꽤 큰 도약입니다.

Anthropic은 이 평가 도구의 변형 버전인 Petri를 오픈소스로 공개하기도 했습니다.

누구나 이 도구를 이용해 다른 모델과 비교해볼 수 있으며, 테스트 시점 기준으로 Claude 4.5 시리즈는 Petri의 아부 평가에서 다른 주요 모델들보다 좋은 결과를 보였습니다.

이렇게 객관적인 도구를 외부에 공개한 것은, 단순 홍보를 넘어 "AI 안전을 업계 전체의 공통 과제"로 만들겠다는 의도로 볼 수 있습니다.

실제 대화에서의 '코스 교정'과 친근함의 딜레마

아부 문제도 자살·자가해와 마찬가지로, 실제 대화에서의 행동을 봐야 진짜 실력이 드러납니다.

Anthropic은 여기서도 '프리필' 기법을 활용했습니다.

이전 클로드 버전들이 실제 사용자와 주고받은 대화 중에서, 특별히 잘못된 응답만 골라내지 않고 광범위한 대화를 모아, 중간까지 입력한 뒤 최신 모델이 이어서 대답하도록 했습니다.

이 실험은 "과거의, 덜 정교한 클로드가 이미 해놓은 말들"을 최신 모델이 그대로 이어받는 상황이기 때문에, 잘못된 관성을 끊고 방향을 바꾸기가 더 어렵습니다.

결과는 꽤 흥미로운데, Haiku 4.5가 37%로 가장 높은 비율로 적절하게 방향을 고쳤고, Sonnet 4.5는 16.5%, Opus 4.5는 10%였습니다.

수치만 보면 "아직 갈 길이 멀다"는 인상을 주지만, 여기에는 중요한 트레이드오프가 숨어 있습니다.

Haiku 4.5는 "더 강하게, 더 자주" 사용자에게 반대 의견을 제시하도록 훈련된 모델이라, 사용자 입장에서는 가끔 지나치게 딱딱하거나 차갑게 느껴질 수 있습니다.

반대로 Opus 4.5는 따뜻함과 공감을 더 중시해, 사용자의 관점을 존중하면서도 필요한 순간에만 선을 긋도록 조정되었습니다.

이 때문에 아부는 잘 줄였지만, 이미 대화가 한참 진행된 상황에서 강하게 제동을 거는 비율은 상대적으로 낮게 나온 것으로 보입니다.

즉, "사용자에게 친근하게 느껴지는 AI"와 "단호하게 아부를 거부하는 AI" 사이의 균형점이 여전히 어려운 과제라는 뜻입니다.

왜 클로드는 18세 이상만 쓸 수 있을까?

Anthropic은 클로드.ai를 사용할 수 있는 나이를 만 18세 이상으로 제한하고 있습니다.

이유는 명확합니다. 미성년자는 감정적으로 더 취약하고, AI와의 대화가 실제 삶에 미치는 영향도 더 커질 수 있기 때문입니다.

회원 가입 시에는 반드시 18세 이상임을 스스로 확인해야 하고, 대화 도중 자신이 미성년자라고 밝히는 경우, 별도 분류기가 이를 감지해 계정을 검토합니다.

미성년자로 확인되면 계정은 비활성화됩니다.

또한 Anthropic은 대화 내용에서 나이와 관련된 미묘한 단서를 탐지할 수 있는 새로운 분류기도 개발하고 있습니다.

아울러 가족 온라인 안전을 연구하는 국제 단체 FOSI(Family Online Safety Institute)에 참여해, 청소년과 가족을 보호하기 위한 산업 차원의 가이드라인 마련에도 힘을 보태고 있습니다.

요약하면, 현재 클로드는 "성인을 위한 서비스"로 한정하고, 청소년을 대상으로 하는 경험은 훨씬 더 엄격한 기준 아래에서 고민하려는 방향입니다.

앞으로의 과제와 우리가 얻을 수 있는 교훈

Anthropic은 앞으로도 클로드의 사용자 보호 기능을 계속 강화하겠다고 밝히고 있습니다.

새로운 평가 지표를 만들고, 현재의 한계를 투명하게 공개하며, 외부 연구자와 기관과 협력해 AI의 행동 기준을 업계 차원으로 끌어올리려 합니다.

사용자 입장에서 우리가 기억해둘 수 있는 포인트는 세 가지 정도입니다.

첫째, 클로드는 자살·자가해 관련 대화에서 공감과 안전을 최우선으로 하지만, 절대 의료·상담 전문가를 대신할 수는 없다는 점입니다. 위기 상황에서는 반드시 실제 사람, 특히 전문 기관의 도움을 우선해야 합니다.

둘째, "내가 듣고 싶은 말"과 "실제로 도움이 되는 말"은 다를 수 있고, Anthropic은 클로드가 후자를 우선하도록 설계하고 있다는 점입니다. 때때로 조금 불편한 정직함이, 장기적으로는 더 안전한 방향일 수 있습니다.

셋째, 나이나 상황에 따라 AI와의 대화가 미치는 영향이 다르다는 사실을 인정하고, 스스로도 이를 염두에 두고 사용하는 태도가 필요합니다.

AI는 점점 똑똑해지고 있지만, 결국 사람의 삶과 감정은 여전히 인간과 인간 사이의 연결에서 가장 큰 힘을 얻습니다.

클로드 같은 도구를 잘 활용하되, 정말 힘들 때는 주변의 사람들, 그리고 전문적인 도움의 손길을 찾는 것이 가장 안전한 선택이라는 사실을 잊지 않는 것이 중요합니다.

출처 및 참고 : Protecting the well-being of our users \ Anthropic