지푸AI GLM-5 공개: MIT 오픈소스로 서구 최상위 모델급?

중국 AI 연구소 지푸AI(Z.ai)가 최신 대형 언어모델 GLM-5를 MIT 라이선스로 공개하며, 코딩·에이전트 작업에서 서구 최상위 모델들과 “동급”이라고 주장했습니다¹. 이번 소식이 중요한 이유는 단순히 성능 경쟁이 아니라, ‘프런티어급 오픈웨이트’가 본격적으로 실사용 영역을 흔들기 시작했기 때문입니다.

GLM-5 스펙 한눈에: “큰데, 똑똑하게 큰” MoE

GLM-5는 총 7440억(744B) 파라미터급이지만, 매 토큰마다 전부가 움직이는 모델은 아닙니다. Mixture-of-Experts(MoE) 구조라서 “필요한 전문가만 호출”하는 방식이고, 그중 활성 파라미터는 약 400억(40B) 수준으로 알려졌습니다¹. 덩치는 커졌는데 운영비는 관리 가능한 쪽으로 설계했다는 이야기죠.

학습 데이터도 28.5조 토큰으로 커졌고¹, 긴 문서나 코드베이스를 한 번에 다루는 흐름에 맞춰 장문 컨텍스트(약 200K 토큰)까지 노립니다². 여기에 DeepSeek 계열의 Sparse Attention(DSA)를 적용해 긴 입력에서 비용을 줄이려는 선택도 눈에 띕니다¹³. “무조건 더 비싼 GPU로 밀어붙이기” 대신, 구조와 최적화로 체급을 키운 전형적인 2026년형 전략입니다.

벤치마크가 말해주는 것: 코딩·에이전트에서 ‘턱밑’까지

지푸AI가 내세우는 하이라이트는 코딩과 에이전트 성능입니다. 대표적으로 SWE-bench Verified 77.8%를 공개했는데, 이는 강력한 코딩 모델로 평가받는 Claude Opus 계열과 격차가 크지 않은 수치로 소개됩니다¹. 또한 1년짜리 시뮬레이션 운영을 요구하는 Vending Bench 2에서 GLM-5가 오픈소스 모델 중 상위권 결과를 냈다는 점도 강조됩니다¹.

다만 여기서 한 번 브레이크를 밟아야 합니다. 벤치마크는 ‘실전’의 필요조건이지 충분조건은 아니거든요. 특히 오픈웨이트 모델은 점수는 화려한데, 실제 현업에서 필요한 “문맥 감각, 협업 흐름, 실패 처리”가 아쉬운 경우가 있습니다. 실제로 초기 관찰 중에는 “목표 달성은 공격적이지만 상황 인지가 약하다”는 우려도 나왔습니다³. 즉 GLM-5는 점수로 증명한 능력과 현장에서 느끼는 신뢰감 사이의 간격을 얼마나 줄이느냐가 관건입니다.

흥미로운 지점은 또 있습니다. VentureBeat는 GLM-5가 독립 지표에서 환각(할루시네이션) 억제/지식 신뢰도 측면의 개선을 강조합니다³. 코딩 잘하는 모델이 늘어나는 국면에서, 앞으로는 “정답을 잘 맞히는가” 못지않게 “모르면 모른다고 말하는가”가 차별점이 될 가능성이 큽니다.

MIT 라이선스의 파급력: “써도 됩니다”가 만드는 생태계 속도

GLM-5의 가장 큰 사건은 성능표보다 MIT 라이선스일 수 있습니다. MIT는 상업적 사용·수정·재배포에 제약이 적어, 기업 입장에서는 “법무 검토가 빨리 끝나는” 쪽에 가깝습니다¹. 즉, 내부망 배포나 특정 도메인 파인튜닝, 비용 최적화 같은 현실적인 움직임이 쉬워집니다.

또 GLM-5는 단순 챗봇이 아니라 에이전트 모드를 전면에 두고, 프롬프트에서 바로 docx/pdf/xlsx 같은 결과물을 뽑는 ‘업무 산출물 지향’을 강하게 밀고 있습니다¹³. “대화 잘하는 모델”에서 “일감을 끝내는 모델”로 기준이 이동 중이라는 신호죠.

개발 쪽에서도 보강이 있습니다. 지푸AI는 GLM-5 재학습에 활용한 강화학습(RL) 프레임워크 slime까지 오픈소스로 공개해, 모델만 던져주는 수준을 넘어 “학습 인프라”까지 생태계에 던졌습니다¹³. 오픈웨이트 전쟁은 이제 가중치 경쟁이 아니라, 툴체인·배포·학습 속도의 종합전으로 가는 느낌입니다.

시사점: GLM-5를 ‘지금’ 어떻게 써볼까?

현업 관점에서 GLM-5는 한 문장으로 정리하면 “오픈웨이트인데 프런티어급을 노리는, 에이전트 지향 모델”입니다¹. 그래서 접근법도 이렇게가 현실적입니다.

첫째, 내부 서비스나 B2B 제품에서 “어차피 자체 호스팅이 필요했던 팀”이라면, MIT 라이선스의 이점을 테스트해볼 만합니다. 특히 장문 문서·리포트 자동화처럼 산출물 형태가 명확한 업무부터 붙이면 ROI가 빨리 나옵니다.

둘째, 벤치마크만 믿고 전면 교체는 금물입니다. 코딩 에이전트나 웹 리서치 에이전트에 붙일 경우, “안전한 중간 산출물(초안·패치·근거 링크)”을 강제하는 가드레일을 먼저 설계하는 게 좋습니다. 잘하는 모델일수록, 실수했을 때 더 멀리 달릴 수 있으니까요.

셋째, 경쟁의 핵심은 이제 “누가 더 똑똑하냐”를 넘어 “누가 더 빨리 배포되고 더 싸게 굴러가냐”로 이동 중입니다. GLM-5는 그 변곡점을 오픈소스로 크게 한 번 두드린 사례로 기억될 가능성이 큽니다.

참고

¹Chinese AI lab Zhipu releases GLM-5 under MIT license, claims parity with top Western models

²Zhipu AI Releases GLM-5: 744B Model Rivals Claude Opus

³z.ai's open source GLM-5 achieves record low hallucination rate and leverages new RL 'slime' technique