검색
검색
공개 노트 검색
회원가입로그인

MMLU 란 무엇인가? 다양한 분야의 성능을 측정하는 인공지능 벤치마크

MMLU (Massive Multitask Language Understanding)

인공지능 모델이 획득한 지식을 측정하는 벤치마크이다. 약 57개의 주제(STEM, the humanities, the social sciences 등)에 대해 다지선다 문제를 푸는 테스트이다. 특히 zero-shot 환경이나 few-shot 환경에 맞게 되어있다고 한다.

현재 존재하는 모델들의 점수는 이곳에서 볼 수 있다. 현재 GPT-4가 86.4%로 최고이다.

Papers with Code - MMLU Benchmark (Multi-task Language Understanding)

공식 github는 여기에서 확인할 수 있다.

GitHub - hendrycks/test: Measuring Massive Multitask Language Understanding | ICLR 2021

MMLU 란 무엇인가? 다양한 분야의 성능을 측정하는 인공지능 벤치마크 image 1

이미지 출처 : Papers with Code 홈페이지

챗봇 아레나에 가면 claude가 포함된 것 까지 볼 수 있다.

Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

MMLU 란 무엇인가? 다양한 분야의 성능을 측정하는 인공지능 벤치마크 image 2

조회수 : 12620
heart
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
T
페이지 기반 대답
AI Chat