GPT-5는 뛰어난 조작 및 전략적 사고로 210개의 Werewolf 게임을 지배했다.

2025-09-13

프랑스 스타트업 Foaster.ai는 AI 모델이 사회적 상호작용을 얼마나 잘 처리하는지 테스트하기 위해 새로운 벤치마크를 구축했습니다.
210번의 "Werewolf" 게임 후, GPT-5는 조작과 전략적 사고에서 탁월함을 발휘하며 최고로 나타났습니다.
"Werewolf" 게임은 논리적 추론, 블러핑, 목표적 속임수, 예상치 못한 상황의 적응력을 요구하여 표준 AI 벤치마크가 포착하지 못하는 능력을 시험하기 위해 선택되었습니다.
게임은 고유의 구조를 따르며 여섯 AI 모델이 다른 역할을 맡습니다: 두 마리의 늑대인간과 특별한 능력을 가진 네 명의 마을 주민.
게임의 평가는 Elo 등급을 사용하여 이루어졌으며, GPT-5는 96.7%의 게임을 승리하며 1,492 Elo 포인트를 기록했습니다.
다른 모델은 게임이 진행될수록 성능이 저하되었습니다. 예를 들어, 구글의 Gemini 2.5 Pro는 게임 초반 60%에서 후반 44%로 기만이 떨어졌습니다.
Gemini 2.5 Pro는 마을 주민으로서 뛰어난 논리적 추론과 자기 방어 능력을 발휘했습니다.
연구진은 각 모델이 고유한 플레이 스타일을 발전시켰다고 관찰했습니다. GPT-5는 "차분하고 침착한 건축가"로서 질서를 유지하고, GPT-oss-120B는 방어적이었습니다.
연구는 강력한 모델이 더 나은 주장을 하고 더 전략적으로 행동하며 더 큰 사회적 지능을 발휘한다고 밝혔습니다.
Foaster.ai는 AI의 사회적 지능 연구를 추진하기 위해 Werewolf 벤치마크를 사용할 계획입니다.
이전 연구에서는 감정적 프롬프트가 LLM 성능을 향상시킬 수 있다는 것을 보여주었습니다.

2the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기