클로드 마인드 매핑 연구를 이용한 골든 게이트 모델 공개

골든 게이트 클로드 (Golden Gate Claude) / Anthropic

클로드 마인드 매핑 연구를 이용한 골든 게이트 모델 공개 image 1

요약:

Anthropic은 Claude 3 Sonnet의 내부 작동 방식에 대한 연구 논문을 발표했습니다.
Mapping the Mind of a Large Language Model
특정 뉴런이 Golden Gate Bridge와 같은 개념을 활성화하는 것을 발견했습니다.
AI 모델이 특정 개념을 인식할 때 활성화되는 "피처"를 발견했습니다.
피처 강도를 조절하여 클로드의 행동 변화를 관찰할 수 있습니다. 강도를 높이면 AI 답변이 골든 게이트 브리지에 집중됩니다.
이러한 활성화를 조정하여 Claude의 행동을 변경할 수 있습니다.
이는 모델 내 특정 기능을 변경할 수 있는 잠재력을 보여줍니다.
일반 사용자가 체험할 수 있도록 "골든 게이트 클로드" 모델로 공개되었습니다.
해석 가능성 연구의 영향을 보여주는 것이 목표입니다.
기존의 미세 조정 방법과는 다른 접근법입니다.
안전 관련 기능을 수정하여 AI 안전성을 향상시킬 수 있습니다.
이러한 수정으로 인해 모델이 예기치 않게 행동할 수 있습니다.
이번 연구를 통해 대형 언어 모델의 작동 방식을 이해하는 데 도움이 됩니다.
연구 결과는 AI 모델의 안전성을 높이는 데 기여할 것으로 기대됩니다.
답변 예시 (이상님이 실험해주신 내용) :

내용: 며칠 전, Anthropic은 LLM의 내부 작동 방식을 해석하는 주요 연구 논문을 발표했습니다. 이 연구는 Claude 3 Sonnet 모델의 "마인드"에서 관련 텍스트나 이미지를 읽을 때 활성화되는 수백만 개의 개념을 발견했습니다. 이러한 개념들은 "피처"라고 불리며, 그 중 하나가 금문교(Golden Gate Bridge)입니다. 클로드의 신경망에 샌프란시스코의 가장 유명한 랜드마크인 금문교를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있다는 것을 발견했습니다. 이러한 피처들을 식별할 수 있을 뿐만 아니라, 그 활성화 강도를 조절하고 클로드의 행동에 상응하는 변화를 확인할 수 있습니다.

예를 들어, "금문교" 피처의 강도를 높이면 클로드의 응답은 직접적인 관련성이 없더라도 대부분의 질문에 금문교를 언급하기 시작합니다. $10를 어떻게 쓸 것인지 물으면 금문교를 건너 통행료를 내는 데 사용할 것을 제안합니다. 사랑 이야기를 써달라고 하면 안개 낀 날 사랑하는 다리를 건너기를 기다리는 자동차에 대한 이야기를 들려줍니다. 자신이 어떻게 생겼는지 상상하라고 하면 금문교처럼 생겼다고 답합니다. Claude.ai에서 이 모델을 직접 체험할 수 있으며, Golden Gate 로고를 클릭하면 됩니다. 연구 데모용이므로 예상치 못한 반응이 있을 수 있습니다.

클로드 내에서 이러한 피처들을 찾아 변경할 수 있다는 사실은 대규모 언어 모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 줍니다. 이는 모델에게 말로 연기를 요청하거나 클로드에게 다리인 척하라고 말하는 추가 텍스트를 모든 입력에 부착하는 새로운 "시스템 프롬프트"를 추가하는 것이 아닙니다. 또한, 이전 블랙박스의 동작을 조정하는 새로운 블랙박스를 만들기 위해 추가 훈련 데이터를 사용하는 전통적인 "미세 조정(fine-tuning)"도 아닙니다. 이는 모델의 내부 활성화에서 가장 기본적인 측면 중 일부에 대한 정확하고 외과적인 변경입니다.

논문에서 설명한 대로, 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 관련된 특징과 같은 안전 관련 특징의 강도를 변경하는 데에도 동일한 기술을 사용할 수 있습니다. 추가 연구를 통해 이 작업이 AI 모델을 더 안전하게 만드는 데 도움이 될 수 있을 것으로 믿습니다.