GPT-5는 뛰어난 조작 및 전략적 사고로 210개의 Werewolf 게임을 지배했다.
- 프랑스 스타트업 Foaster.ai는 AI 모델이 사회적 상호작용을 얼마나 잘 처리하는지 테스트하기 위해 새로운 벤치마크를 구축했습니다.
- 210번의 "Werewolf" 게임 후, GPT-5는 조작과 전략적 사고에서 탁월함을 발휘하며 최고로 나타났습니다.
- "Werewolf" 게임은 논리적 추론, 블러핑, 목표적 속임수, 예상치 못한 상황의 적응력을 요구하여 표준 AI 벤치마크가 포착하지 못하는 능력을 시험하기 위해 선택되었습니다.
- 게임은 고유의 구조를 따르며 여섯 AI 모델이 다른 역할을 맡습니다: 두 마리의 늑대인간과 특별한 능력을 가진 네 명의 마을 주민.
- 게임의 평가는 Elo 등급을 사용하여 이루어졌으며, GPT-5는 96.7%의 게임을 승리하며 1,492 Elo 포인트를 기록했습니다.
- 다른 모델은 게임이 진행될수록 성능이 저하되었습니다. 예를 들어, 구글의 Gemini 2.5 Pro는 게임 초반 60%에서 후반 44%로 기만이 떨어졌습니다.
- Gemini 2.5 Pro는 마을 주민으로서 뛰어난 논리적 추론과 자기 방어 능력을 발휘했습니다.
- 연구진은 각 모델이 고유한 플레이 스타일을 발전시켰다고 관찰했습니다. GPT-5는 "차분하고 침착한 건축가"로서 질서를 유지하고, GPT-oss-120B는 방어적이었습니다.
- 연구는 강력한 모델이 더 나은 주장을 하고 더 전략적으로 행동하며 더 큰 사회적 지능을 발휘한다고 밝혔습니다.
- Foaster.ai는 AI의 사회적 지능 연구를 추진하기 위해 Werewolf 벤치마크를 사용할 계획입니다.
- 이전 연구에서는 감정적 프롬프트가 LLM 성능을 향상시킬 수 있다는 것을 보여주었습니다.
2the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.