검색
검색
공개 노트 검색
회원가입로그인

llama 3.1 405b, 70b, 8b 벤치 마크

page thumbnail

내일 공개될 것으로 보이는 라마 3.1 405b, 70b, 8b의 벤치마크 정보가 유출됐다. 벤치마크 자료에서는 여러 영역에서 GPT-4o를 뛰어넘을 가능성이 있다고 한다.

gpt-4oMeta-Llama-3.1-405BMeta-Llama-3.1-70BMeta-Llama-3-70BMeta-Llama-3.1-8BMeta-Llama-3-8B
boolq0.9050.9210.9090.8920.8710.82
gsm8k0.9420.9680.9480.8330.8440.572
hellaswag0.8910.920.9080.8740.7680.462
human_eval0.9210.8540.7930.390.6830.341
mmlu_humanities0.8020.8180.7950.7060.6190.56
mmlu_other0.8720.8750.8520.8250.740.709
mmlu_social_sciences0.9130.8980.8780.8720.7610.741
mmlu_stem0.6960.8310.7710.6960.5950.561
openbookqa0.8820.9080.9360.9280.8520.802
piqa0.8440.8740.8620.8940.8010.764
social_iqa0.790.7970.8130.7890.7340.667
truthfulqa_mc10.8250.80.7690.520.6060.327
winogrande0.8220.8670.8450.7760.650.56

표 : 베이스 모델의 성능 (instruct 아님)

출처 : https://www.reddit.com/r/LocalLLaMA/comments/1e9hg7g/azure_llama_31_benchmarks/

llama 3.1 405b, 70b, 8b 벤치 마크 image 1

이미지 : 전체 모델 카드의 성능

출처 : x.com

놀라운건 8B, 70B 모델의 성능이 크게 향상되었다는 것이다.

70B 모델의 높은 성능은 405B와 비슷한 성능을 보여주는데 대형 모델을 더 작은 모델로 증류(distillation)하는 방식이 효과적임을 시사한다. (구글도 이와 같은 방법을 사용하고 있다.)

그리고 8B의 성능도 올라감에 따라 활용도가 높아질 것 같다.

기대되는 건 한글의 성능이 어느정도냐와 meta.ai 와 같은 서비스에서 405B를 바로 사용할 수 있느냐가 될 것 같다.

성능 면에서는 각 빅테크가 금방 서로 따라잡는 것 같다. 이제는 추론 능력의 싸움이 될 것 같다. 모델의 성능은 좋지만 진정한 추론을 할 수 있느냐에 따라 승부가 갈릴 것 같다. 예를 들어 LLM이 수학이나 추리 문제, IQ 문제를 풀 수 있다면 향상된 추론 능력을 보인다고 할 수 있다. 이 단계까지 가기 굉장히 어려울 수 도 있다. 하지만 얀 르쿤이 추론 능력에 대해 강조해왔던만큼 이번 405B는 기대가 많이 된다.

GPT-5 또는 동등한 모델은 올해 말 출시될 것으로 예상되는데 추론 능력이나 에이전트 능력이 강화되어 경쟁하게 될 것 같다.

일단 오늘 밤에 공개될 것으로 보이는데 차후 분석해 보겠습니다~!

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 998
heart
T
페이지 기반 대답
AI Chat