Grok 4는 복잡한 추론 벤치마크 ARC-AGI에서 GPT-5를 능가합니다.

2025-08-08

Grok 4는 ARC-AGI-2 복잡한 추론 벤치마크에서 약 16%를 기록하며 GPT-5를 능가했으며, 과제당 비용은 $2에서 $4로 더 높다.
ARC-AGI 벤치마크는 암기보다 추론을 강조하며 모델의 정확성과 해결 비용으로 등급을 매긴다.
ARC-AGI-1 테스트에서는 Grok 4가 약 68%로 GPT-5보다 높은 성능을 보여 주었으나, 비용은 과제당 약 $1이었다. GPT-5는 $0.51의 비용으로 비슷한 성능을 제공했다.
비용 대비 성능 면에서는 현재 GPT-5가 더 나은 가치를 제공한다.
GPT-5의 작은 버전인 GPT-5 Mini와 GPT-5 Nano도 각각 ARC-AGI 테스트에서 비교적 낮은 비용으로 수행되었다.
상호작용적 ARC-AGI-3 벤치마크를 위한 초기 비공식 테스트가 진행 중이며, 이는 시도와 오류를 통해 게임처럼 과제를 해결해야 한다.
Grok 4의 강력한 성능이 이 벤치마크에서는 높은 평가를 받지만, 전체적으로 더 나은 모델인지는 불분명하다.
특히 o3-preview 모델은 거의 80%의 점수로 ARC-AGI-1 테스트에서 가장 높은 점수를 기록했지만 비용이 더 높다.
OpenAI는 GPT-5 발표에서 ARC Prize를 언급하지 않았으며, o3-preview 모델은 이후 채팅 버전에서 큰 성능 감소가 있었다고 보고되었다.

5the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.