xAI Grok 4 및 Grok 4.1 출시 타임라인과 모델 진화

개요

xAI의 Grok 제품군은 2023년 첫 출시 이후 빠르게 버전 업그레이드를 거치며, 2025년의 Grok 4와 Grok 4.1에 이르러 '프런티어(최전선) AI 모델'로 자리 잡은 계열이다.¹ xAI는 "우주를 이해하는 것"을 목표로 내세우며, 단순 대화형 챗봇을 넘어 복잡한 추론과 도구 활용, 실시간 데이터 통합을 지향하는 AI를 개발하고 있다.¹

Grok 4는 2025년 7월 9일(0709) 릴리스로 알려져 있으며, 이후 강화학습 기반 최적화와 도구·검색 통합을 통해 강력한 추론형 모델 라인업을 구성했다. 이어 2025년 11월 17일 공개된 Grok 4.1은 같은 강화학습 인프라를 활용해 스타일·정확성·안전성을 재조정한 버전으로, 벤치마크 상위권에 오르며 기존 프런티어 모델들을 대체 혹은 위협하는 성능을 보였다.³⁴⁵

이 노트는 xAI와 Grok의 개요에서 출발해, Grok 4와 4.1의 출시 타임라인, 명명 규칙, 기술적 특성, 시장 논쟁, 그리고 앞으로의 진화 방향을 한 번에 정리하는 것을 목표로 한다.

xAI와 Grok 제품군 개요

xAI는 일론 머스크가 OpenAI 이탈 후 설립한 AI 기업으로, 초기에는 "TruthGPT"라는 이름으로 '최대한 진실을 추구하는 AI'를 만들겠다는 구상을 공개했다.¹ 이 프로젝트는 이후 소설 「Stranger in a Strange Land」에서 차용한 동사 'grok'에서 이름을 가져와 Grok이라는 제품군으로 재탄생했다.¹

Grok은 기본적으로 챗봇이지만, X(옛 트위터), iOS·Android 앱, Tesla 차량 및 Optimus 로봇 등 다양한 인터페이스에 통합된 멀티플랫폼 AI 비서라는 포지션을 갖는다.¹ 단순한 대화형 서비스가 아니라, 실시간 X 데이터와 외부 도구를 결합해 정보를 요약하고, 코드와 문서를 다루며, 점점 더 복잡한 에이전트형 작업을 수행하는 방향으로 진화해 왔다.¹³

정치·문화적으로는 '정치적 올바름(PC)'을 피하고 보수 성향을 포함한 다양한 관점을 허용하겠다는 메시지로 차별화되었고, 실제로 업데이트를 거치며 정치적 응답이 우측으로 이동했다는 평가를 받기도 했다.¹ 이 점은 기술적 진화 못지않게 Grok 브랜드의 중요한 특징이자 논쟁 지점으로 남아 있다.

Grok 모델 진화 타임라인: 1 → 1.5 → 2 → 3 → 4 → 4.1

Grok의 진화는 대략 1년 반 남짓한 기간에 여러 메이저 버전을 거친 '급가속' 형태다. 2023년 11월 Grok-1이 처음 공개되었을 때, xAI는 이를 "두 달간의 훈련으로 만든 매우 초기 베타"라고 규정했지만, 곧바로 진화 사이클이 시작됐다.¹

2024년 3월에는 128K 컨텍스트와 향상된 추론 능력을 갖춘 Grok-1.5가 발표되었고, 같은 해 3월 17일에는 Grok-1이 완전 오픈소스로 공개되어 아키텍처와 가중치가 공개되었다.¹ 이어 2024년 8월에는 멀티모달 기능을 포함한 Grok-2가 등장하며, 오픈소스와 상용 모델을 병행하는 구조가 더욱 뚜렷해졌다.¹

이후 내부 버전인 Grok 3, Grok 3 Mini, Grok 2 Vision 등을 거쳐, 2025년 7월 9일 릴리스된 Grok 4(0709)가 사실상 첫 '프런티어급' 모델로 자리매김한다.³ 이 모델은 고비용·고성능 구간에 포지셔닝되었고, 이어 2025년 9월경에는 더 빠른 응답과 도구 사용을 위해 최적화된 Grok 4 Fast가 출시된다.³

2025년 11월 17일 공개된 Grok 4.1은 4 Fast와 같은 대규모 강화학습 인프라를 활용해 품질·정확성·안전성을 재튜닝한 세대다.³⁵ 초기에 소비자용 인터페이스(X, grok.com, 모바일 앱)에만 제공되었다가, 11월 19일 업데이트를 통해 기업용 API에서도 grok-4-1-fast-reasoning / grok-4-1-fast-non-reasoning이라는 이름으로 제공되기 시작했다.²³

xAI 문서 기준 모델 명명 규칙과 라인업·가격 체계

xAI는 API 문서와 릴리스 노트에서 모델명을 일관된 패턴으로 관리한다. 기본적으로 모델 이름(grok-4, grok-4-fast, grok-4-1-fast 등)에 릴리스 날짜를 붙인 <model>-<YYYY-MM-DD> 또는 축약형 <model>-<MMDD> 형식을 사용해 특정 스냅샷을 구분한다.³ 예를 들어 "Grok 4 (0709)"는 2025년 7월 9일자 릴리스 버전을 가리킨다.³

2025년 하반기 기준 xAI API에서 제공되는 주요 라인업은 Grok 4.1 Fast(추론/비추론), Grok 4 Fast, Grok 4 (0709), 그리고 이전 세대인 Grok 3·3 Mini·2 Vision 등으로 구성된다.²³ Grok 4.1 자체(완전판)는 높은 단가의 프리미엄 모델로, llm-stats 기준 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러 수준에 책정되어 있다.⁴

반면 Grok 4.1 Fast는 "프런티어 모델 중 저가"를 강조하는 가격 전략을 취하고 있다. API 공개 당시 입력 토큰은 100만당 0.20달러(캐시 사용 시 0.05달러), 출력은 0.50달러로, ERNIE 4.5 Turbo보다 약간 높지만 GPT-5.1이나 Gemini 3 Pro 등과 비교하면 대폭 낮은 수준이다.³ Grok 4 (0709)는 입력 3달러·출력 15달러로 가격대가 훨씬 높아, Grok 4.1 Fast는 "같은 프런티어급 추론 모델이면서도 가격은 한 자릿수 혹은 그 이하"라는 포지션을 형성한다.³⁴

Grok 4: 추론 특화와 도구·검색 중심의 프런티어 모델

Grok 4는 2025년 7월 9일 릴리스 버전(0709)을 기준으로, 강력한 추론 능력과 도구 연동을 전면에 내세운 첫 xAI 프런티어 모델이다. 이 버전은 장문 컨텍스트, 코드·수학·분석 작업에서 높은 성능을 목표로 설계되었고, 실시간 X 데이터와 웹 검색, 코드 실행 등 다양한 내부·외부 도구를 활용하는 능력으로 차별화를 시도했다.³

xAI는 Grok 4와 같은 세대의 모델에서부터 대규모 강화학습(RL) 인프라를 전면적으로 도입했다. 이는 단순 다음 단어 예측(지도학습)을 넘어, "도구를 언제 어떻게 쓸지", "모호한 질문에 어떻게 추론 단계를 쌓아갈지" 같은 행동을 보상 신호로 학습시키는 구조다.³⁵ 이러한 구조 덕분에 Grok 4는 복잡한 멀티스텝 작업에서 자체 계획(planning)을 세우고, 필요 시 검색이나 계산 도구를 호출해 정답을 확인하는 '에이전트형' 행동을 보여준다.³

벤치마크 측면에서 Grok 4는 초기 GPT-4 계열보다는 앞선 성능을 보이지만, 이후 출시된 Claude 4 계열, Gemini 2.5 Pro, GPT-4.5 Preview와의 경쟁에서 다소 밀리는 구간도 있었다.³ 이 격차를 줄이기 위해 xAI는 Grok 4 Fast 및 Grok 4.1에서 추론·도구 사용 최적화와 가격 경쟁력을 동시에 강화하는 전략을 택했다.

Grok 4 Heavy와 병렬 연산 전략

Grok 4 세대에는 내부적으로 'Heavy' 계열과 'Fast' 계열이라는 두 가지 사용 모드가 존재했다고 알려져 있다. Heavy는 최대 성능과 추론 깊이를 목표로 하는 대규모·고비용 버전이고, Fast는 응답 지연(latency)을 크게 줄여 실제 서비스에서 쓰기 쉬운 버전이다.³ 사용자는 복잡한 연구·코딩·해결형 과제에서는 Heavy 혹은 reasoning 모드를, 대화·요약·질의응답에는 Fast 혹은 non-reasoning 모드를 선택하는 식의 구성이 가능하다.

기술적으로 Grok 4와 이후 버전은 병렬 연산을 공격적으로 활용하는 전략을 취했다. 하나의 긴 의사결정 트리를 한 줄로 따라가기보다는, 여러 후보 계획이나 도구 호출을 병렬로 실행해 더 짧은 상호작용 횟수 안에 목표를 달성하려 한다.³ 예를 들어 이전에는 "검색 → 정리 → 추가 검색 → 결론"처럼 네 단계가 필요했던 작업을, Grok 4 이후 세대에서는 "동시 검색+분석 → 결론"처럼 한두 번의 툴 호출로 끝내는 식이다.³

이러한 설계는 OpenAI의 o3, GPT-5 Reasoning, Anthropic의 'Thinking' 모드와 같은 경쟁 모델들과 비슷한 방향성을 가진다. 다만 Grok 계열은 실시간 X 데이터와의 결합, 그리고 비교적 자유로운 도구 호출 정책을 통해 보다 "현실 세계의 작업 흐름에 붙는 에이전트"를 표방한다는 점이 특징이다.³

Grok 4.1: 스타일·사실성·안전성까지 다듬은 4세대 후속

Grok 4.1은 2025년 11월 17일 공개된 버전으로, Grok 4 Fast와 동일한 대규모 강화학습 인프라를 활용해 모델의 스타일·성격·사실성·안전성을 종합적으로 재조정한 릴리스다.³⁵ 이 버전은 두 가지 모드로 제공된다. 하나는 "Thinking" 모드로, 내부적으로 여러 단계의 계획과 검증을 거친 뒤 응답을 생성하며, 다른 하나는 "Fast(Non-Thinking)" 모드로 생각 토큰 없이 바로 답변을 내는 대신 높은 속도를 유지한다.³⁴

xAI는 Grok 4.1에서 frontier 에이전트형 추론 모델을 보상 모델로 활용하는 새로운 RL 기법을 도입했다고 밝힌다.⁵ 즉, 더 강력한 추론 모델 또는 내부 에이전트가 후보 응답을 평가하고, 그 평가 결과를 바탕으로 Grok 4.1을 반복적으로 튜닝하는 구조다.⁵ 이를 통해 "유머와 개성이 있으면서도, 실제 정보 질문에서 더 사실적인 답을 하는" 스타일을 목표로 했다.⁴⁵

벤치마크에서는 Grok 4.1 Thinking이 LMArena Text Arena에서 정규화된 Elo 1480대 점수를 기록하며 Anthropic Claude 4.5, OpenAI GPT-4.5 Preview, Google Gemini 2.5 Pro 등을 앞섰고, 이후 공개된 Gemini 3 등장 전까지 잠시 1위를 차지했다.³ 비추론 버전도 1460대 Elo를 기록해 상위권에 올랐다.³

Grok 4.1의 핵심 성능 특성: 추론, 멀티모달, 장문 컨텍스트

Grok 4.1은 세 가지 축에서 Grok 4 대비 눈에 띄는 개선을 보여준다. 첫째, 추론 성능이다. Creative Writing v3 같은 창의적 글쓰기 벤치마크에서 Grok 4.1 Thinking은 1700대 점수를 기록하며, 이전 Grok 세대보다 약 600점 가까운 향상을 보였다.³ Arena Expert(전문 평가단) 리더보드에서도 Grok 4.1 Thinking이 1510점으로 선두권에 올랐다.³

둘째, 멀티모달(특히 비전) 능력이다. Grok 4에서 약점으로 지적되던 이미지·영상 이해, 차트 분석, OCR 수준의 텍스트 추출 능력이 4.1에서 대폭 개선되었다.³ 이제는 문서·그래프·스크린샷·사진뿐 아니라 영상 기반 분석까지 지원하며, 실질적으로 "멀티모달 작업용 메인 모델"로 쓸 수 있는 수준에 도달했다는 평가다.³

셋째, 장문 컨텍스트 유지력이다. Grok 4는 대략 30만 토큰 이상에서 응답 품질이 떨어지는 문제가 있었지만, Grok 4.1은 최대 100만 토큰 수준까지 의미 있는 맥락 유지가 가능하다고 알려져 있다.³ llm-stats 기준 API 사양은 입력 최대 25만6천 토큰, 출력 8천 토큰으로 명시되어 있으며, 토큰당 지연시간도 약 28% 감소해 실사용성이 크게 개선되었다.³⁴

이미지 출처: xAI Grok 4: Native tool use boosts performance by 50% | Zheng ...

이와 같은 성능 개선은 단순 아키텍처 변경뿐 아니라, "스타일·성격·사실성·안전성"을 위한 대규모 강화학습 튜닝의 결과로 평가된다.⁴⁵ 사용자는 이전보다 일관된 톤과 개성을 느끼면서도, 정보 질문에 대한 정확도와 신뢰성이 높아졌다는 인상을 받도록 설계되어 있다.⁴

도구·검색 통합과 병렬 에이전트 전략

Grok 4.1의 큰 특징 중 하나는 도구 오케스트레이션 능력이다. xAI는 4.1에서 여러 외부 도구를 동시에 계획하고 실행할 수 있도록 개선했다고 설명한다.³ 이전에는 순차적으로 "툴 A → 결과 확인 → 툴 B" 형태로 진행되던 작업을, 이제는 내부 계획 단계에서 여러 도구 호출을 병렬로 스케줄링해 전체 왕복 횟수를 줄인다.³

이를 뒷받침하기 위해 xAI는 2025년 11월 19일, Grok 4.1 Fast API 공개와 함께 Agent Tools API를 도입했다.³ 이 API는 실시간 X 데이터, 외부 도구 체인, 원격 함수 호출을 하나의 프레임워크로 묶어, 개발자가 직접 오케스트레이션 로직을 짜지 않고도 복잡한 에이전트를 구성할 수 있게 한다.³ 특히 τ²-bench, Berkeley Function Calling v4 등 '에이전트·함수 호출' 벤치마크에서 Grok 4.1 Fast가 Claude Sonnet 4.5, GPT-5, Gemini 3 Pro 등을 앞서는 성능을 보였다는 점이 강조된다.³

이러한 전략은 OpenAI의 o3, GPT-5 Reasoning 같은 경쟁 모델이 "긴 사고(chain-of-thought)와 도구 호출을 통한 해결"에 집중하는 것과 비슷한 방향이지만, xAI는 가격을 낮게 책정하고 X 데이터를 깊게 통합함으로써 "더 많은 실제 서비스에 붙이게 만드는 플랫폼"을 지향하는 쪽에 무게를 둔 것으로 볼 수 있다.³

안전성, 환각 감소, 그리고 브랜드 리스크

xAI는 Grok 4.1에서 환각(hallucination)과 안전성 측면의 지표를 적극적으로 공개했다. 내부 평가에 따르면 비추론 모드에서의 환각률은 Grok 4 Fast의 12.09%에서 Grok 4.1의 4.22%로 약 65% 감소했다.³ 사실성 QA 벤치마크인 FActScore에서는 이전 버전 대비 오답 비율이 9.89%에서 2.97%로 줄어드는 등, 정보성 질문에서의 신뢰도를 개선했다.³

또한 위험한 화학·생물학 지식에 대한 질의에서 안전 필터의 '거짓 음성' 비율이 매우 낮게 유지되었다고 보고된다. 예를 들어 제한된 화학 지식에 대한 허용률은 0.00%, 생물학 관련 민감 질의는 0.03% 수준에 머무른 것으로 평가되었다.³ 설득·조작 벤치마크(MakeMeSay 등)에서도 공격자로서의 성공률 0%를 기록하는 등, 악의적 사용에 대한 방어력을 강조한다.³

그럼에도 Grok 브랜드는 정치·문화적 리스크를 안고 있다. 위키백과에 따르면, Grok는 여러 차례 논쟁적 응답을 생성해왔고, 시간이 지나며 정치적 응답이 우파 성향으로 이동했다는 평가를 받고 있다.¹ 이는 xAI가 "검열되지 않은 솔직한 AI"를 표방하며, 일론 머스크의 개인적 견해와 X 플랫폼의 정치적 논쟁 구조가 모델 행동에 영향을 미쳤기 때문이라는 분석이 존재한다.¹ 따라서 Grok 4와 4.1에서 강화된 안전 장치와 환각 감소는, 기술적 품질 향상뿐 아니라 브랜드 리스크를 관리하기 위한 방향 전환으로도 해석할 수 있다.

Grok 4 → 4.1 버전별 진화 흐름과 향후 로드맵

Grok 4에서 Grok 4.1로의 진화는 "크게 바뀐 아키텍처"보다는 "동일한 기반 위에서의 대규모 강화학습·도구 최적화·안전 튜닝"이라는 성격이 강하다. Grok 4(0709)가 xAI의 첫 프런티어 모델로서 아키텍처·스케일 측면의 도약을 이뤘다면, Grok 4.1은 그 위에 RL 기반 품질 최적화, 멀티모달 보강, 도구 오케스트레이션, 가격 전략을 얹어 실제 제품으로 완성도를 끌어올린 세대라 볼 수 있다.³⁵

타임라인만 놓고 보면, 2025년 7월 9일 Grok 4(0709) → 9월경 Grok 4 Fast → 11월 17일 Grok 4.1(소비자용) → 11월 19일 Grok 4.1 Fast API 공개라는 순으로 4세대 모델이 매우 짧은 간격으로 진화했다.²³ 이는 xAI가 "한 번의 대규모 학습 후, 그 위에 RL과 도구 튜닝을 반복적으로 올리며 빠르게 버전을 밀어 올리는" 개발 문화를 선택했음을 시사한다.

향후 로드맵을 추론해보면, xAI는 다음과 같은 방향을 이어갈 가능성이 높다. 첫째, 프리미엄형(Heavy/Thinking)과 실용형(Fast/Non-Thinking)을 병행하는 이중 라인 전략을 유지하면서, 가격·성능 곡선을 계속해서 압축하려 할 것이다.³⁴ 둘째, X·Tesla·Optimus 등 자사 생태계와의 결합을 강화해 "실시간·물리 세계·소셜 그래프에 깊이 박힌 AI 에이전트"라는 차별화를 시도할 것으로 예상된다.¹³ 셋째, Grok의 정치·문화적 논쟁을 고려할 때, 안전·환각·정치적 편향 제어를 둘러싼 튜닝과 커뮤니케이션은 앞으로도 중요한 과제가 될 것이다.¹³

정리하면, Grok 4와 4.1은 xAI가 "프런티어 추론 모델 개발사 → 실사용 가능한 에이전트형 플랫폼 사업자"로 전환하는 과정의 핵심 이정표다. 앞으로 등장할 Grok 5 혹은 후속 세대는, 현재의 도구·에이전트·RL 기반 구조 위에서 보다 큰 스케일과 멀티모달 통합, 그리고 로봇·자율주행·소셜 플랫폼과의 결합을 통해 또 한 번 도약을 시도할 가능성이 크다.