Ernie 5.0, 2.4조 파라미터로 LMArena 중국 1위 찍다
Ernie 5.0(바이두의 차세대 대형언어모델)이 LMArena(=Chatbot Arena 계열 리더보드)에서 “중국 모델 1위”를 기록했다는 소식이 흥미로운 이유는 단순히 순위 자랑이 아니라, 중국식 멀티모달 전략이 글로벌 평가 지표에서 통하기 시작했다는 신호이기 때문입니다.
이 글에서는 Ernie 5.0이 어떤 모델인지(2.4조 매개변수·풀모달), LMArena에서 어떤 성과를 냈는지(텍스트 1,460점·중국 1위), 그리고 “왜 지금 이게 중요한지”를 쉽게 풀어볼게요.
LMArena 1,460점: “중국 모델 1위”의 의미
바이두 공식 블로그에 따르면 ERNIE-5.0-0110은 LMArena Text 리더보드에서 1,460점을 기록하며 중국 모델 중 1위를 차지했고, 글로벌 기준으로는 8위에 올랐습니다.1
여기서 포인트는 “중국 내 평가”가 아니라 “여러 모델이 섞여 싸우는 글로벌 크라우드소싱 대결판”에서 얻은 결과라는 점입니다. LMArena는 무작위로 모델을 붙여 놓고 사람들이 더 나은 답을 고르는 방식이라, 특정 벤치마크 최적화만으로는 계속 상위권을 유지하기가 어렵습니다.
재미있는 장면은 ‘이름값’이 통하지 않는다는 거예요. 사용자는 답변만 보고 투표하니까, ERNIE-5.0이 GPT-5.1-High나 Gemini-2.5-Pro 같은 모델들을 제치고 “텍스트 성능이 강하다”는 인상을 남겼다는 게 핵심이죠.1
수학 성능이 특히 강하다: GPT-5.2-High 바로 아래
텍스트만 잘하는 모델은 많습니다. 하지만 “수학/추론”은 얘기가 달라져요. 같은 발표에서 ERNIE-5.0-0110은 수학(Math) 부문에서 글로벌 2위를 기록했는데, 1위는 GPT-5.2-High였습니다.1
이 지점이 실사용 관점에서 중요합니다. 수학 성능이 좋다는 건 단지 계산을 잘한다기보다, 조건을 놓치지 않고 단계적으로 문제를 풀어가며 “말이 되게” 답을 만들 확률이 높다는 뜻이니까요.
업무에서 모델을 써본 분들은 공감할 텐데, 보고서 문장 다듬기는 두루두루 괜찮아도 “논리 퍼즐”이나 “수식 기반 의사결정”에서 무너지는 모델이 꽤 많습니다. ERNIE-5.0이 여기서 강점을 보였다는 건, 단순한 언어 모델을 넘어 ‘추론형’ 사용처까지 파고들겠다는 신호로 볼 수 있습니다.
2.4조 매개변수 + 풀모달 통합: “나중에 합치는” 멀티모달과 다르다
China Daily 보도에 따르면 Ernie Bot 5.0은 2.4조(2.4 trillion) 파라미터 규모로 소개됐고, 텍스트·이미지·오디오·비디오를 모두 이해/생성할 수 있는 “native full-modality unified modeling”을 내세웠습니다.2
여기서 어려운 말은 딱 하나로 정리됩니다.
기존 멀티모달이 “텍스트 모델 따로, 비전 모델 따로 만든 뒤 결과를 뒤에서 합치는 방식”이었다면, 바이두는 “처음부터 한 모델 골격에서 같이 훈련시키는 통합형”을 강조합니다.2
이 차이는 사용자 경험에서 티가 납니다. 예를 들어 이미지를 설명할 때, 단순히 캡션을 붙이고 끝나는 게 아니라 대화 문맥 속에서 “왜 이게 중요한지, 다음 행동은 뭔지”까지 이어지는 흐름이 더 자연스러워질 수 있어요. 멀티모달을 ‘기능 추가’가 아니라 ‘사고 방식 자체’로 넣겠다는 전략이니까요.
MoE(혼합 전문가)와 ‘3% 미만 활성화’가 말해주는 것
같은 기사에서 Ernie 5.0은 “초대형 하이브리드 전문가(MoE) 구조”를 쓰고, 활성화되는 파라미터 비율이 3% 미만이라고 설명합니다.2
이걸 쉽게 비유하면 이렇습니다.
2.4조 명의 거대한 ‘전문가 풀’이 있어도 매 질문마다 2.4조 명이 다 회의에 들어오는 건 비효율적이죠. 대신 질문 성격에 맞는 소수만 호출해 일하게 만드는 방식이 MoE이고, “3% 미만만 활성화”는 그 호출 규모를 아주 작게 유지했다는 뜻입니다.2
즉, 덩치는 큰데 매번 다 쓰지 않아서 속도/비용을 관리하겠다는 설계입니다. 모델이 커질수록 결국 제품화의 승부처는 “성능”과 “추론 효율”의 균형인데, 바이두가 그 균형을 강하게 의식하고 있다는 대목이기도 합니다.
Ernie Bot 5.0은 어디서 쓰나: 개인은 앱, 기업은 Qianfan
실제로 써보고 싶은 분들에게 중요한 건 “그래서 어디서 쓰는데?”죠. China Daily에 따르면 개인 사용자는 Ernie Bot 공식 앱/웹에서 이용할 수 있고, 기업·개발자는 바이두의 Qianfan(천범) 플랫폼을 통해 활용할 수 있다고 합니다.2
또한 Ernie Bot 자체는 2023년 공개 이후 빠르게 확산됐고, 2024년에는 사용자 수가 2억 명을 넘겼다는 보고도 있습니다.3 사용자가 많아질수록 피드백 루프와 적용 사례가 늘어나고, 이는 다시 모델 개선 속도를 끌어올리기 때문에(좋든 나쁘든) 생태계 파워로 연결됩니다.
시사점을 한 문장으로 요약하면 이렇습니다. “모델 성능 경쟁이 ‘미국 빅테크만의 리그’가 아니라, 지역 생태계(특히 중국)에서 축적한 멀티모달·제품화 경험이 글로벌 순위로 튀어나오는 국면”으로 넘어가고 있습니다.
시사점으로는, 단순히 ‘최고 모델’만 바라보기보다 우리 목적에 맞춰 선택하는 습관이 더 중요해졌습니다. 수학/추론이 필요하면 그쪽에서 강한 모델을, 이미지·영상까지 한 번에 다뤄야 하면 풀모달 통합형을, 비용이 중요하면 MoE 최적화 모델을 우선 검토하는 식이죠. 결국 2026년의 AI는 “누가 1등이냐”보다 “내 일에 누가 더 덜 삽질하게 해주느냐”가 승부처입니다.
참고
1ERNIE-5.0 Tops LMArena Text Leaderboard as No.1 Chinese Model! | ERNIE Blog
2Baidu releases latest version of its Ernie chatbot - Chinadaily.com.cn