SciArena는 과학자들이 실제 연구 질문에 대한 LLM을 비교할 수 있게 합니다.

2025-07-02

새로운 오픈 플랫폼 SciArena는 인간의 선호도를 기반으로 과학 문헌 작업에서 대규모 언어 모델(LLM)을 평가할 수 있게 해준다.
SciArena는 Yale, 뉴욕 대학교, Allen Institute for AI의 연구자들에 의해 개발되었으며, 처음으로 과학 문헌 작업을 다루는 모델의 성능 차이를 명확히 보여준다.
사용자는 과학적 질문을 제출하고, 두 모델이 생성한 인용된 장문의 답변을 받은 후 어느 응답이 더 나은지 결정한다.
현재까지 102명의 연구자가 자연과학, 공학, 생명과학, 사회과학 분야의 13,000개 이상의 평가를 수행했다.
OpenAI의 o3 모델이 SciArena 리더보드를 선도하고 있으며, 내구성과 공학 과학에서 두드러진 성능을 보인다.
SciArena-Eval은 모델들이 다른 모델의 답변을 평가하는 능력을 테스트하며, 인간의 선호도와 상위 모델의 일치율이 약 65%로, 과학적 맥락에서 LLM을 판정 가능한 시스템으로 사용하는 데 한계가 있음을 강조한다.
SciArena는 공개 코드, 데이터 및 SciArena-Eval 벤치마크를 제공하며, 과학 정보 작업을 위한 인간 중심의 모델 개발을 지원하고자 한다.

4the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.