Hugging Face가 여섯 가지 벤치마크로 모델을 테스트하는 Open LLM Leaderboard v2를 공개했습니다. 중국 모델들이 상위 10위권을 차지하며, Alibaba의 Qwen이 1위를 차지했습니다.

2024-06-29

Hugging Face가 두 번째 LLM 리더보드를 발표하여 언어 모델 성능을 6가지 기준으로 테스트합니다.
중국의 AI 모델, 특히 Alibaba의 Qwen 모델이 상위 10위권을 석권하며 리더보드의 최상위 자리를 차지했습니다.
리더보드는 지식 테스트, 긴 문맥에서의 추론, 복잡한 수학 능력, 지시 사항을 따른 능력 등을 포함한 4가지 과제를 다룹니다.
시험 항목에는 1,000단어로 구성된 살인 미스터리 해결, 박사 수준의 질문을 평이한 용어로 설명, 고등학교 수학 방정식 풀이 등이 포함됩니다.
Meta의 Llama3-70B와 소규모 오픈 소스 프로젝트도 상위권에 올랐지만, ChatGPT는 테스트에서 제외되었습니다.
Hugging Face는 300개의 Nvidia H100 GPU를 사용하여 자체 컴퓨터에서 테스트를 실행했습니다.
Hugging Face의 오픈 소스 및 협업의 특성 덕분에 누구나 새로운 모델을 제출할 수 있으며, 새로운 투표 시스템이 인기가 높은 항목을 우선으로 테스트합니다.
첫 번째 리더보드 이후 모델들이 점점 고도화됨에 따라 초기 리더보드의 결과가 점점 의미가 없어지는 경향이 있었습니다.
일부 모델은 첫 번째 리더보드에 비해 성능이 저하되었으며, 이는 특정 테스트에만 과도하게 최적화된 결과입니다.
진정한 인공지능의 성과는 여전히 먼 미래의 일임을 시사합니다.

4tomshardware.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.