llama 3.1 405b, 70b, 8b 벤치 마크

내일 공개될 것으로 보이는 라마 3.1 405b, 70b, 8b의 벤치마크 정보가 유출됐다. 벤치마크 자료에서는 여러 영역에서 GPT-4o를 뛰어넘을 가능성이 있다고 한다.

	gpt-4o	Meta-Llama-3.1-405B	Meta-Llama-3.1-70B	Meta-Llama-3-70B	Meta-Llama-3.1-8B	Meta-Llama-3-8B
boolq	0.905	0.921	0.909	0.892	0.871	0.82
gsm8k	0.942	0.968	0.948	0.833	0.844	0.572
hellaswag	0.891	0.92	0.908	0.874	0.768	0.462
human_eval	0.921	0.854	0.793	0.39	0.683	0.341
mmlu_humanities	0.802	0.818	0.795	0.706	0.619	0.56
mmlu_other	0.872	0.875	0.852	0.825	0.74	0.709
mmlu_social_sciences	0.913	0.898	0.878	0.872	0.761	0.741
mmlu_stem	0.696	0.831	0.771	0.696	0.595	0.561
openbookqa	0.882	0.908	0.936	0.928	0.852	0.802
piqa	0.844	0.874	0.862	0.894	0.801	0.764
social_iqa	0.79	0.797	0.813	0.789	0.734	0.667
truthfulqa_mc1	0.825	0.8	0.769	0.52	0.606	0.327
winogrande	0.822	0.867	0.845	0.776	0.65	0.56
표 : 베이스 모델의 성능 (instruct 아님)

출처 : https://www.reddit.com/r/LocalLLaMA/comments/1e9hg7g/azure_llama_31_benchmarks/

llama 3.1 405b, 70b, 8b 벤치 마크 image 1

이미지 : 전체 모델 카드의 성능

출처 : x.com

놀라운건 8B, 70B 모델의 성능이 크게 향상되었다는 것이다.

70B 모델의 높은 성능은 405B와 비슷한 성능을 보여주는데 대형 모델을 더 작은 모델로 증류(distillation)하는 방식이 효과적임을 시사한다. (구글도 이와 같은 방법을 사용하고 있다.)

그리고 8B의 성능도 올라감에 따라 활용도가 높아질 것 같다.

기대되는 건 한글의 성능이 어느정도냐와 meta.ai 와 같은 서비스에서 405B를 바로 사용할 수 있느냐가 될 것 같다.

성능 면에서는 각 빅테크가 금방 서로 따라잡는 것 같다. 이제는 추론 능력의 싸움이 될 것 같다. 모델의 성능은 좋지만 진정한 추론을 할 수 있느냐에 따라 승부가 갈릴 것 같다. 예를 들어 LLM이 수학이나 추리 문제, IQ 문제를 풀 수 있다면 향상된 추론 능력을 보인다고 할 수 있다. 이 단계까지 가기 굉장히 어려울 수 도 있다. 하지만 얀 르쿤이 추론 능력에 대해 강조해왔던만큼 이번 405B는 기대가 많이 된다.

GPT-5 또는 동등한 모델은 올해 말 출시될 것으로 예상되는데 추론 능력이나 에이전트 능력이 강화되어 경쟁하게 될 것 같다.

일단 오늘 밤에 공개될 것으로 보이는데 차후 분석해 보겠습니다~!