AI 북 메이커

AI news 검색

OpenAI의 o3는 긴 문맥 벤치마크에서 거의 완벽한 성능을 달성합니다.

2025-04-20

기사 제목: "OpenAI의 o3, 긴 문맥 벤치마크에서 거의 완벽한 성능 달성"
o3 모델은 최대 200,000 토큰을 지원하며, Fiction.live 벤치마크에서 128,000 토큰으로 100% 완벽한 성능을 달성함.
이는 대략 96,000 단어에 해당하며, 방대한 서사나 문서를 다루는 데 있어 큰 도약.
Google의 Gemini 2.5 Pro는 90.6%를 기록한 반면, o3-mini와 o4-mini는 뒤처짐.
Fiction.LiveBench 테스트는 모델이 긴 문맥의 복잡한 이야기를 얼마나 잘 이해하고 재현할 수 있는지 평가.
Meta의 Llama 4는 1천만 토큰의 문맥 창을 자랑하지만, 실제로는 간단한 키워드 검색 이상에 유용하지 않음.
많은 모델들이 긴 문맥 이해에 미흡하며, 이는 마케팅 홍보 이상의 역할을 못하는 경우가 많음.
현실적인 대규모 입력에 대한 일관되고 깊은 성능이 필요한 사용자에게 o3는 새로운 기준점.
기사 작성자: Matthias는 THE DECODER의 공동 창립자 및 발행인.

3the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기