OpenAI의 o3 모델은 복잡한 다중 앱 오피스 작업에서 새로 나온 GPT-5 모델보다 뛰어나다.

  • "OdysseyBench"라는 새로운 벤치마크에서 OpenAI의 이전 모델인 o3가 새로운 GPT-5 모델보다 더 복잡한 사무 작업을 잘 수행함.
  • OdysseyBench는 Microsoft와 에든버러 대학교 연구자들에 의해 설계되었고, 여러 날에 걸친 시나리오를 테스트함.
  • Word, Excel, PDF, 이메일, 캘린더 앱을 포함한 602개의 작업을 다루며, 현실적인 작업과 특히 도전적인 시나리오를 포함함.
  • 장기 작업에서 o3는 GPT-5를 일관되게 앞서며, 대화 중심의 장기 사무 작업을 해결하는데 더 나은 성능을 보임.
  • 특히 3개의 애플리케이션을 동시에 사용할 때 o3가 더 우수한 성과를 보임.
  • OdysseyBench+와 OdysseyBench-Neo에서 o3는 각각 56.2%와 61.26%의 성공률을 기록, GPT-5와 GPT-5-채팅보다 높은 성과를 보임.
  • OdysseyBench-Neo에서는 GPT-5-채팅이 강화된 대화 기반 지원 덕분에 GPT-5를 능가함.
  • OpenAI는 장기적인 아이디어 생성과 연구 자동화를 목표로 AI 에이전트를 개발 중이며, OdysseyBench는 이러한 시스템에 중요한 벤치마크가 될 가능성이 있음.
  • AI 에이전트들은 여전히 복잡한 워크플로우에서 문제를 겪고 있으며, 중요한 파일을 간과하거나 잘못된 도구를 사용하는 등의 상황이 발생함.
  • 연구자들은 이러한 결과가 여러 도구, 시간프레임, 컨텍스트에 걸친 정확한 다단계 계획에 여전히 도전과제가 있음을 시사한다고 전함.

4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기