Hugging Face가 여섯 가지 벤치마크로 모델을 테스트하는 Open LLM Leaderboard v2를 공개했습니다. 중국 모델들이 상위 10위권을 차지하며, Alibaba의 Qwen이 1위를 차지했습니다.
- Hugging Face가 두 번째 LLM 리더보드를 발표하여 언어 모델 성능을 6가지 기준으로 테스트합니다.
- 중국의 AI 모델, 특히 Alibaba의 Qwen 모델이 상위 10위권을 석권하며 리더보드의 최상위 자리를 차지했습니다.
- 리더보드는 지식 테스트, 긴 문맥에서의 추론, 복잡한 수학 능력, 지시 사항을 따른 능력 등을 포함한 4가지 과제를 다룹니다.
- 시험 항목에는 1,000단어로 구성된 살인 미스터리 해결, 박사 수준의 질문을 평이한 용어로 설명, 고등학교 수학 방정식 풀이 등이 포함됩니다.
- Meta의 Llama3-70B와 소규모 오픈 소스 프로젝트도 상위권에 올랐지만, ChatGPT는 테스트에서 제외되었습니다.
- Hugging Face는 300개의 Nvidia H100 GPU를 사용하여 자체 컴퓨터에서 테스트를 실행했습니다.
- Hugging Face의 오픈 소스 및 협업의 특성 덕분에 누구나 새로운 모델을 제출할 수 있으며, 새로운 투표 시스템이 인기가 높은 항목을 우선으로 테스트합니다.
- 첫 번째 리더보드 이후 모델들이 점점 고도화됨에 따라 초기 리더보드의 결과가 점점 의미가 없어지는 경향이 있었습니다.
- 일부 모델은 첫 번째 리더보드에 비해 성능이 저하되었으며, 이는 특정 테스트에만 과도하게 최적화된 결과입니다.
- 진정한 인공지능의 성과는 여전히 먼 미래의 일임을 시사합니다.
4tomshardware.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.