검색
검색
AI news 검색
Sign UpLogin

Anthropic의 AI 보안 시스템은 테스트에서 95%의 탈옥 시도를 차단합니다.

  • 제목: "Anthropic의 AI 보안 시스템, 테스트에서 95%의 탈옥 시도 차단"
  • Anthropic은 AI 모델을 조작 시도로부터 보호하기 위해 "Constitutional Classifiers"라는 새로운 보안 방법 개발
  • 이 기술은 해로운 응답을 유도하려는 시도를 탐지하고 차단하는 것을 목표로 함
  • 테스트 동안 183명의 참가자에게 상금 $15,000을 제시하며 AI 모델 Claude 3.5에 10개의 금지된 질문에 답하도록 유도하려 했으나 모두 실패
  • 초기 버전은 무고한 요청을 지나치게 위험으로 간주하고 많은 컴퓨팅 파워를 요구하는 두 가지 문제점 존재
  • 개선된 버전은 10,000번의 탈옥 시도 중 95% 이상을 차단하며 무고한 요청에 대해 추가적으로 0.38%만 잘못 인식하는 성과를 보임
  • 보안 시스템은 허용 또는 금지된 콘텐츠에 대한 사전 정의된 규칙을 사용하여 합성 훈련 데이터를 생성하고 이를 통해 의심스러운 입력을 탐지하는 분류기를 훈련시킴
  • 연구자들은 이 시스템이 모든 탈옥 시도를 완전히 차단할 수는 없으며, 새로운 공격 방법이 등장할 수 있음을 인정
  • 추가 보안 측정을 권고하며, 2025년 2월 3일부터 10일까지 보안 전문가들이 시도해볼 수 있는 공개 데모 버전 출시

3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기