LLM 벤치마크 - LiveBench
LiveBench
개요: LiveBench는 테스트 세트 오염을 방지하고 객관적 평가를 목표로 설계된 대규모 언어 모델(LLM)을 위한 벤치마크입니다.
주요 특징:
a) 오염 방지: 매월 새로운 질문을 공개하고, 최근 발표된 데이터셋, arXiv 논문, 뉴스 기사, IMDb 영화 시놉시스 등을 기반으로 질문을 만들어 잠재적 오염을 제한합니다.
b) 객관적 평가: 각 질문에는 검증 가능한 객관적인 정답이 있어, LLM 심사관 없이도 어려운 질문을 정확하고 자동으로 채점할 수 있습니다.
c) 다양성: 현재 6개 카테고리에 걸쳐 18개의 다양한 작업을 포함하고 있으며, 시간이 지남에 따라 새롭고 더 어려운 작업을 공개할 예정입니다.
목적: LiveBench는 LLM의 성능을 더 정확하고 공정하게 평가하기 위해 설계되었으며, 지속적으로 발전하는 벤치마크를 제공합니다.
이 벤치마크는 LLM 평가의 신뢰성과 객관성을 높이는 데 기여할 것으로 보입니다.
Abacus.AI - The world's first AI assisted end-to-end data science and MLOps platform 에서 후원하는 벤치 마크.
2024-8-5 기준
Model | Global Average | Reasoning Average | Coding Average | Mathematics Average | Data Analysis Average | Language Average | IF Average |
---|---|---|---|---|---|---|---|
claude-3-5-sonnet-20240620 | 59.87 | 58.67 | 60.85 | 53.75 | 56.74 | 56.94 | 72.30 |
gpt-4o-2024-05-13 | 54.63 | 50.00 | 49.36 | 49.88 | 52.41 | 53.94 | 72.17 |
meta-llama-3.1-405b-instruct-turbo | 54.25 | 53.33 | 43.80 | 46.55 | 53.51 | 49.85 | 78.47 |
gpt-4-turbo-2024-04-09 | 52.88 | 51.33 | 49.00 | 48.99 | 51.32 | 45.26 | 71.39 |
gemini-1.5-pro-exp-0801 | 51.56 | 45.33 | 40.59 | 47.46 | 50.15 | 46.96 | 78.84 |
claude-3-opus-20240229 | 50.56 | 41.33 | 38.59 | 46.54 | 54.32 | 51.72 | 70.87 |
gpt-4-0125-preview | 48.90 | 47.33 | 41.80 | 42.75 | 54.06 | 43.55 | 63.92 |
meta-llama-3.1-70b-instruct-turbo | 48.44 | 40.67 | 32.67 | 45.58 | 50.29 | 42.36 | 79.08 |
mistral-large-2407 | 47.86 | 41.33 | 47.08 | 40.48 | 46.61 | 39.79 | 71.85 |
deepseek-coder-v2 | 46.31 | 45.33 | 41.51 | 52.54 | 38.25 | 33.04 | 67.18 |
deepseek-chat-v2 | 46.04 | 40.00 | 41.15 | 52.11 | 45.59 | 32.77 | 64.61 |
gpt-4-0613 | 45.60 | 34.67 | 37.31 | 36.22 | 44.03 | 49.57 | 71.79 |
LMsys 리더보드에서 1위가 되어 논란이 됐던 gemini-1.5-pro-exp-0801 가 다른 모델보다 추론이나 수학 등에서 객관적인 정답을 맞추지는 못한다. 리더보드 자체가 게임화가 될 수 있다고 한다. 하지만 나는 개인적으로 사용해봤을 때 나쁘지는 않았다.
공유하기
조회수 : 310