OpenAI가 o3 기록을 세우기 전에 독립적인 수학 벤치마크를 조용히 지원했습니다.
- OpenAI가 FrontierMath라는 주요 AI 수학 벤치마크를 비밀리에 자금을 지원한 사실이 밝혀짐.
- FrontierMath는 복잡한 수학 문제를 해결하는 AI 시스템의 능력을 평가하기 위해 2024년 11월에 소개됨.
- 60명 이상의 수학자가 참여해 문제를 만듦.
- 12월 20일 OpenAI가 새로운 o3 모델과 함께 발표, 이 모델은 벤치마크에서 25.2%의 성공률을 기록함.
- 이전 모델은 2% 이상의 문제를 해결하지 못함.
- FrontierMath를 개발한 Epoch AI는 OpenAI의 지원 사실을 발표 시점까지 공개하지 않기로 한 계약을 맺음.
- OpenAI의 지원 사실은 연구 논문을 업데이트하면서 각주에 언급됨.
- 문제를 만든 수학자들은 OpenAI의 참여를 알지 못함.
- OpenAI는 많은 수학 문제와 해답에 접근할 수 있었으나, 일부 문제는 비공개로 유지함.
- OpenAI가 문제를 훈련 자료로 사용하지 않기로 구두 합의함.
- Epoch AI는 향후 협업 시 더 큰 투명성을 확보하기 위해 노력할 것이라 밝힘.
- 투명성 부족이 벤치마크의 품질이나 중요성을 훼손하지는 않으나, AI 평가 도구로 중요한 역할을 하는 만큼 처음부터 완전한 공개가 필요했음.
- AI 벤치마크 개발은 비용이 많이 들고 복잡하며, 테스트 결과는 주목과 투자를 끌어들이는 중요한 요소임.
3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.