OpenAI의 o3 모델은 복잡한 다중 앱 오피스 작업에서 새로 나온 GPT-5 모델보다 뛰어나다.

2025-08-16

"OdysseyBench"라는 새로운 벤치마크에서 OpenAI의 이전 모델인 o3가 새로운 GPT-5 모델보다 더 복잡한 사무 작업을 잘 수행함.
OdysseyBench는 Microsoft와 에든버러 대학교 연구자들에 의해 설계되었고, 여러 날에 걸친 시나리오를 테스트함.
Word, Excel, PDF, 이메일, 캘린더 앱을 포함한 602개의 작업을 다루며, 현실적인 작업과 특히 도전적인 시나리오를 포함함.
장기 작업에서 o3는 GPT-5를 일관되게 앞서며, 대화 중심의 장기 사무 작업을 해결하는데 더 나은 성능을 보임.
특히 3개의 애플리케이션을 동시에 사용할 때 o3가 더 우수한 성과를 보임.
OdysseyBench+와 OdysseyBench-Neo에서 o3는 각각 56.2%와 61.26%의 성공률을 기록, GPT-5와 GPT-5-채팅보다 높은 성과를 보임.
OdysseyBench-Neo에서는 GPT-5-채팅이 강화된 대화 기반 지원 덕분에 GPT-5를 능가함.
OpenAI는 장기적인 아이디어 생성과 연구 자동화를 목표로 AI 에이전트를 개발 중이며, OdysseyBench는 이러한 시스템에 중요한 벤치마크가 될 가능성이 있음.
AI 에이전트들은 여전히 복잡한 워크플로우에서 문제를 겪고 있으며, 중요한 파일을 간과하거나 잘못된 도구를 사용하는 등의 상황이 발생함.
연구자들은 이러한 결과가 여러 도구, 시간프레임, 컨텍스트에 걸친 정확한 다단계 계획에 여전히 도전과제가 있음을 시사한다고 전함.

4the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기