Hugging Face는 여섯 가지 기준에서 모델을 테스트하는 Open LLM leaderboard v2를 공개했으며, 중국 모델들이 상위 10위를 차지하고, Alibaba의 Qwen이 1위를 차지했다.

2024-06-29

Hugging Face가 두 번째 대형 언어 모델(LLM) 리더보드를 공개함.
이 리더보드는 6가지 벤치마크를 기준으로 모델 성능을 테스트하였음.
중국의 AI 모델들이 상위 10위 중 다수를 차지하며, Alibaba의 Qwen 모델이 1위를 기록함.
Qwen 72B 모델이 가장 뛰어난 성능을 보이며, 중국의 오픈 모델들이 전체적으로 우세함.
벤치마크 테스트는 총 4가지 과제(지식 테스트, 매우 긴 맥락에 대한 추론, 복잡한 수학 능력, 지시사항 준수)로 구성됨.
주요 테스트에는 1,000단어의 살인 미스터리 해결, 박사 수준의 질문을 평이한 언어로 설명, 고등학교 수학 방정식 풀이 등이 포함됨.
Hugging Face의 리더보드는 오픈소스 모델만을 테스트하며, ChatGPT 같은 폐쇄형 모델은 포함되지 않음.
테스트는 Hugging Face의 자체 컴퓨터에서 실시되었으며, 300개의 Nvidia H100 GPU를 사용함.
누구나 새로운 모델을 제출하여 리더보드에 오를 수 있으며, 인기 있는 새 항목을 우선순위로 테스트함.
기존 리더보드의 벤치마크에 특화된 훈련이 오히려 실제 성능을 악화시키는 사례를 보이며, Meta의 Llama 모델 등이 새 리더보드에서 부진한 성적을 기록.

4tomshardware.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.