Anthropic의 AI 보안 시스템은 테스트에서 95%의 탈옥 시도를 차단합니다.

2025-02-04

제목: "Anthropic의 AI 보안 시스템, 테스트에서 95%의 탈옥 시도 차단"
Anthropic은 AI 모델을 조작 시도로부터 보호하기 위해 "Constitutional Classifiers"라는 새로운 보안 방법 개발
이 기술은 해로운 응답을 유도하려는 시도를 탐지하고 차단하는 것을 목표로 함
테스트 동안 183명의 참가자에게 상금 $15,000을 제시하며 AI 모델 Claude 3.5에 10개의 금지된 질문에 답하도록 유도하려 했으나 모두 실패
초기 버전은 무고한 요청을 지나치게 위험으로 간주하고 많은 컴퓨팅 파워를 요구하는 두 가지 문제점 존재
개선된 버전은 10,000번의 탈옥 시도 중 95% 이상을 차단하며 무고한 요청에 대해 추가적으로 0.38%만 잘못 인식하는 성과를 보임
보안 시스템은 허용 또는 금지된 콘텐츠에 대한 사전 정의된 규칙을 사용하여 합성 훈련 데이터를 생성하고 이를 통해 의심스러운 입력을 탐지하는 분류기를 훈련시킴
연구자들은 이 시스템이 모든 탈옥 시도를 완전히 차단할 수는 없으며, 새로운 공격 방법이 등장할 수 있음을 인정
추가 보안 측정을 권고하며, 2025년 2월 3일부터 10일까지 보안 전문가들이 시도해볼 수 있는 공개 데모 버전 출시

3the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.