Hugging Face는 여섯 가지 기준에서 모델을 테스트하는 Open LLM leaderboard v2를 공개했으며, 중국 모델들이 상위 10위를 차지하고, Alibaba의 Qwen이 1위를 차지했다.
- Hugging Face가 두 번째 대형 언어 모델(LLM) 리더보드를 공개함.
- 이 리더보드는 6가지 벤치마크를 기준으로 모델 성능을 테스트하였음.
- 중국의 AI 모델들이 상위 10위 중 다수를 차지하며, Alibaba의 Qwen 모델이 1위를 기록함.
- Qwen 72B 모델이 가장 뛰어난 성능을 보이며, 중국의 오픈 모델들이 전체적으로 우세함.
- 벤치마크 테스트는 총 4가지 과제(지식 테스트, 매우 긴 맥락에 대한 추론, 복잡한 수학 능력, 지시사항 준수)로 구성됨.
- 주요 테스트에는 1,000단어의 살인 미스터리 해결, 박사 수준의 질문을 평이한 언어로 설명, 고등학교 수학 방정식 풀이 등이 포함됨.
- Hugging Face의 리더보드는 오픈소스 모델만을 테스트하며, ChatGPT 같은 폐쇄형 모델은 포함되지 않음.
- 테스트는 Hugging Face의 자체 컴퓨터에서 실시되었으며, 300개의 Nvidia H100 GPU를 사용함.
- 누구나 새로운 모델을 제출하여 리더보드에 오를 수 있으며, 인기 있는 새 항목을 우선순위로 테스트함.
- 기존 리더보드의 벤치마크에 특화된 훈련이 오히려 실제 성능을 악화시키는 사례를 보이며, Meta의 Llama 모델 등이 새 리더보드에서 부진한 성적을 기록.
4tomshardware.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.