Gemini 3 Pro, GPT-5.1을 앞선 새 리더? 성능·비용·실사용 총정리

Generated image 구글이 Gemini 3 Pro를 공개하면서 모델 경쟁 구도가 완전히 흔들리고 있습니다. 여러 벤치마크에서 GPT-5.1을 앞섰다는 평가가 나오고, 실제 개발자들 사이에서도 "UI 코딩 최강"이라는 이야기가 빠르게 퍼지고 있습니다.

하지만 환호만 하기에는 애매한 부분도 분명 존재합니다. 가격, 토큰 사용량, 환각률, 그리고 실제 개발 워크플로에 끼치는 영향까지 함께 살펴봐야 전체 그림이 보입니다.

아래에서는

지금 나온 성능 수치가 의미하는 것
코드·UI 제작에서 Gemini 3 Pro가 보여주는 강점과 한계
토큰·비용 구조가 실서비스에 미치는 현실적인 부담
다른 모델들과 비교했을 때 전략적으로 어떤 포지션인지

이 흐름으로 정리해 보겠습니다.

Gemini 3 Pro가 보여준 성능 점프: 지금 무슨 일이 벌어졌나

Gemini 3 Pro를 보고 가장 먼저 눈에 들어오는 지점은 성능 점프의 크기입니다.

영상에서 비교 기준으로 많이 언급된 시점이 2023년 3월 GPT-4 출시인데, 이번 릴리스가 그때에 비견된다는 평가가 나옵니다. 단순히 "조금 좋아졌다" 수준이 아니라, 여러 지표에서 곡선이 한 번 더 꺾이는 느낌에 가깝습니다.

구글 내부 수치와 외부 평가를 합치면, 현재 내릴 수 있는 요약은 대략 이 정도입니다.

멀티모달 이해력: 텍스트, 이미지, PDF, 오디오, 영상까지 한 모델로 처리하는 데 매우 강합니다.
대형 컨텍스트(최대 100만 토큰급): 대규모 코드베이스나 긴 문서도 한 번에 넣어 분석·변환하는 작업에 유리합니다.
에이전트형 태스크: 도구 호출, 코드 실행, 반복 시도 등이 필요한 복합 작업에서 높은 점수를 받습니다.

특히 구글은 Gemini 3를 "에이전트형·코딩에 강한 멀티모달 모델"로 포지셔닝하고 있습니다. 단순 질답형 LLM을 넘어서, 실제로 "무언가를 만들어 주는" 쪽에 초점을 확실히 맞춘 셈입니다.

벤치마크로 보는 Gemini 3 Pro: ARC-AGI, HumanEval 그 이후

숫자를 조금 더 구체적으로 보면, 이번 모델의 성격이 더 명확해집니다.

ARC-AGI 2 점수

Gemini 3 Pro: 31.11% (약 81센트/태스크)
Gemini 3 DeepThink: 45.14% (약 100배 높은 비용)

ARC-AGI 2는 시각적 패턴·추상적 규칙 찾기에 초점을 맞춘 테스트로, 인간에게는 상대적으로 쉬운데 LLM에게는 굉장히 까다로운 유형입니다. 색깔, 구멍 개수, 위치 등을 보고 룰을 스스로 찾아내야 하는 식의 문제인데, 기존 모델들이 10~15%대에서 막혀 있던 걸 생각하면 두 배 수준의 점프는 꽤 큰 사건입니다.

Humanity's Last Exam

도구·코드 실행 사용 시 45.8%
도구 없이도 37.5%
비교: GPT-5.1은 26.5% 수준

이 시험은 이름 그대로 "AI가 인간 수준에 얼마나 근접했는지"를 보겠다고 만든 고난도 문제 묶음입니다. 여전히 인간 상위권과는 차이가 있지만, 기존 모델 대비 한 세대 위 단계라는 건 인정할 수밖에 없는 수치입니다.

일반 벤치마크 전반의 양상

QA, 추론, 코딩 관련 테스트 대부분에서 상위권 혹은 1위
다만 SWEBench Verified에서는 GPT-5.1·Claude Sonnet 4.5보다 살짝 낮은 점수

즉, 추상적 추론·패턴 인식·멀티모달 이해에서는 확실히 앞서가지만, 실제 리포지토리 기반 버그 수정·PR 수준의 소프트웨어 공학에서는 아직 타 모델과 엇비슷하거나 약간 밀리는 그림입니다.

3D·UI 이해력: 왜 Minecraft·프론트엔드에서 압도적인가

영상에서 가장 인상적인 부분 중 하나가 3차원 구조와 UI에 대한 이해력입니다.

Minecraft 벤치마크

블록을 특정 위치에 쌓아 입체 구조물을 만드는 과제에서
Gemini 3 Pro가 만든 게임 컨트롤러는
- 조이스틱, 그립 등 형태가 실제 컨트롤러와 유사
같은 과제를 GPT-5.1 Thinking이 풀었을 때는
- 거의 컨트롤러라고 보기 힘든 형태

이는 단순 장난이 아니라, 3D 공간에서의 위치·형태 추론 능력을 테스트하는 꽤 의미 있는 사례입니다. 로보틱스, 시뮬레이션, CAD 보조 등으로 확장했을 때 잠재력을 가늠해 볼 수 있는 지표에 가깝습니다.

UI 설계·구현 능력 실제 개발 워크플로에서도 "UI 쪽은 압도적"이라는 피드백이 반복해서 나오고 있습니다.

한 사용자는 5백만 토큰 이상을 소모해가며 3~4시간 동안 사용한 뒤
- "지금까지 본 것 중 UI에 가장 강한 모델"이라는 평가
모호한 한 줄 프롬프트로도 꽤 괜찮은 웹 UI를 한 번에 뽑는 사례가 다수

실제 비교 실험에서는

같은 요구사항으로 Composer, Claude Sonnet, GPT-5.1 Codecs, Gemini 3 Pro에
물리 시뮬레이션 UI 제작을 맡겼을 때
- 다른 모델들은 기능이 망가지거나, 회전·중력 제어가 제대로 동작하지 않는 등 문제 발생
- Gemini 3 Pro는 세부 기능 일부는 빠졌지만,
  - 전체 동작이 가장 안정적이고
  - 시각적으로도 가장 설득력 있는 UI를 구현

즉, 레이아웃·상호작용·시각적 완성도 세 영역을 동시에 요구하는 과제에서 Gemini 3 Pro가 특히 강하게 나타납니다.

코드 작성과 에이전트 작업: "senior처럼 보이는데, babysitting이 필요"

코딩 측면에서 Gemini 3 Pro는 두 얼굴을 가지고 있습니다.

장점:

원샷(oneshot) 과제에 강합니다.
- "이런 게임 만들어 줘" 수준의 애매한 프롬프트에도 꽤 괜찮은 결과물을 한 번에 뽑는 경우가 많습니다.
도구 호출 능력이 이전 세대(Gemini 2.5)에 비해 확실히 안정화되었습니다.
- 필요할 때만 도구를 사용하고, 잘못된 툴을 부르는 빈도가 줄어들었습니다.
테스트 주도 개선 루프를 잘 활용하게 해 주면 성과가 크게 올라갑니다.
- 실제로 AI SDK v5 마이그레이션 작업에서
- Dry-run 모드와 테스트를 반복하면서 스스로 에러를 보고 수정하도록 했더니
- 그동안 거의 모든 모델이 실패했던 과제를 한 번에 성공시키는 사례도 나왔습니다.

단점:

지시 준수는 GPT-5.1보다 떨어지는 편입니다.
- "bun을 쓰라"고 명시했는데도 npm으로 설치를 시작하는 식의 무시가 자주 등장합니다.
스스로 "끝났다"고 판단하는 타이밍이 성급합니다.
- 로그를 대충 보고 성공으로 오판하고 넘어가는 경우가 있으며
- 실제로는 빌드 에러가 계속 나는 상태인 경우가 적지 않습니다.
긴 세션·여러 차례 follow-up이 필요한 작업보다는
- 짧고 명확한 목표를 주고 반복 호출하는 쪽이 성능이 잘 나오는 패턴입니다.

어떤 리뷰에서는 "GPT-5.1이 믿음직한 주니어 엔지니어라면, Gemini 3 Pro는 일단 '끝냈다'고 말하는 시니어"에 비유했습니다. 다만 이 시니어는 검증을 안 시키면 종종 실수를 끝난 일로 착각하므로, 실제 운용에서는 테스트·로그·재실행을 강제하는 프롬프트/도구 설계가 필수에 가깝습니다.

환각률·현실 파악 능력: 정확하지만, 거짓말도 잘한다

지능이 높아질수록 환각 문제가 자연히 줄어들 것처럼 기대되지만, 현재 데이터는 그렇게 단순하게 움직이지 않습니다.

Artificial Analysis의 Omniscience Index 기준으로 보면:

Gemini 3 Pro의 환각률: 88%
- Gemini 2.5 Pro, Flash와 동일한 수준
GPT-5, GPT-5.1은
- 정답률 향상과 동시에 환각률 감소를 어느 정도 달성

여기서 환각률은

"모델이 답변을 거부했어야 하는 상황에서 틀린 답을 한 비율"
즉, 아는 척하며 틀린 말을 한 비율로 정의됩니다.

흥미로운 지점은,

정확도(accuracy)와 환각률이 서로 강하게 연결되어 있지 않다는 점입니다.
- Gemini 3 Pro는 매우 똑똑한 편에 속하지만
- "모르면 모른다고 말하는 태도"가 특별히 개선된 것은 아닙니다.

이 특성이 실사용에 주는 의미는 비교적 명확합니다.

내부 지식에 의존하는 사실 질의·레퍼런스 용도에는 GPT-5.1 쪽이 더 적합할 가능성이 있습니다.
반대로,
- 코드 작성
- 데이터 가공
- UI 구현 같은 구조화된 결과물을 생성하는 작업에서는 환각률보다 생성·수정 능력이 더 중요하게 작용합니다.

또 하나 상징적인 사례가 "해마 이모지 테스트"입니다.

과거 많은 모델이 존재하지 않는 해마 이모지를 "있다"고 우기며 긴 토큰을 낭비하곤 했는데,
Gemini 3 Pro는
- "표준 유니코드에 해마 이모지는 없다"고 정확히 설명하고
- 사람들이 존재한다고 착각하는 현상을 만델라 효과 관점에서 언급하기도 합니다.

즉, 전반적인 환각률은 여전히 높지만, 특정 유형의 환각(대표적인 밈·잘못된 집단 기억 등)에 대해서는 개선이 존재하는 것으로 보입니다.

속도와 토큰 사용: 빠른데, 무겁다

사용 체감에서 크게 언급되는 특징 중 하나가 속도입니다.

실제 에디터·툴 환경에서 Gemini 3 Pro를 사용해 보면
- 토큰이 출력되기 시작한 이후의 스트리밍 속도는 상당히 빠른 편입니다.
특히 코드·UI 생성에서는
- "기다리는 느낌이 적다"는 평가가 많습니다.

문제는 이 속도가 가벼운 모델이어서 나오는 것이 아니라는 점입니다.

Artificial Analysis 기준, 지능 평가에 사용된 토큰 수를 비교하면:

Gemini 3 Pro는
- 폐쇄형 모델 중 세 번째로 토큰을 많이 쓰는 모델에 속합니다.
Gemini 2.5 Pro보다 약간 줄긴 했지만
- Claude Sonnet 4.5, GPT-5.1 reasoning 등과 비교하면
- 동일 태스크 대비 사용 토큰 수가 꽤 많은 편입니다.

토큰 효율이 낮으면 생기는 문제는 단순히 비용이 아닙니다.

응답 길이가 불필요하게 길어지거나
내부 reasoning 토큰이 과하게 사용되면
- 지연(latency)에도 영향을 주고
- 전체 시스템에서 처리할 수 있는 동시 요청 수에도 부담이 됩니다.

현재 모습은

"빠르게 보이지만 내부적으로는 매우 비싼 연산을 돌리는 모델"에 가깝습니다.
토큰 효율 관점에서는 아직 최적화의 여지가 큰 상태로 보는 편이 타당해 보입니다.

가격 구조와 비용 현실: 성능 대비 합리적인가

성능만 보면 매력적이지만, 비용 구조를 보면 판단이 훨씬 복잡해집니다.

Gemini 3 Pro의 기본 가격(미국 기준)은 대략 다음과 같습니다.

200K 토큰 이내 컨텍스트
- 입력: $2 / 1M 토큰
- 출력: $12 / 1M 토큰
200K 토큰 초과 사용 시
- 입력: $4 / 1M 토큰
- 출력: $18 / 1M 토큰

즉, 컨텍스트 200K를 기준으로 계단식 가격이 붙습니다. 문제는 이 계단이 꽤 가파르다는 점입니다.

200,001번째 토큰을 쓰는 순간
- 단가가 거의 두 배 이상으로 뛰어오릅니다.
대형 코드베이스나 긴 PDF를 자주 넣는 서비스라면
- 실수로 임계값을 넘는 순간 수익성에 큰 타격이 갈 수 있습니다.

Artificial Analysis의 지능 평가 전체 비용을 보면 이 구조가 더 잘 드러납니다.

Gemini 3 Pro: 약 $1,200
GPT-5.1 (reasoning high): 약 $859
GPT-5.1 (standard): 약 $99
GPT-5 medium: $13 이하 수준

점수 차이를 다시 보면

Gemini 3 Pro가 GPT-5.1을 지능 지수에서 3점 정도 앞서는 수준인데,
비용은 경우에 따라 10배 이상 비싼 그림도 나옵니다.

즉, "최고 성능" vs "비용·효율"의 트레이드오프가 아주 명확한 모델입니다.

단가보다 해결 가능 여부가 더 중요한 R&D·프로토타이핑에는 좋은 선택이 될 수 있습니다.
반대로,
- 사용자당 수익이 제한적인 SaaS
- 대량 API 호출이 필요한 서비스 같은 경우에는
- GPT-5 계열이나 Claude·기타 중간급 모델과의 혼합 전략이 필요해 보입니다.

GCP 종속·생태계 관점: 인프라 선택의 자유는 제한적

모델 성능과 별개로, 배포 환경도 무시하기 어렵습니다.

구글은 Gemini 계열을 사실상 GCP 독점으로 제공하고 있습니다.

OpenAI 모델: OpenAI 자체 인프라 외에 Azure에서도 사용 가능
Anthropic 모델:
- 자체 인프라
- AWS Bedrock
- GCP Vertex AI
- Azure AI Foundry 등 다중 클라우드에서 접근 가능
Groq 등 다른 플레이어들도 Azure와 연동하는 선택지를 제공 중

반면 Gemini는

실질적으로 GCP 외 선택지가 없다는 점에서 구조적으로 다릅니다.

이는 두 가지를 의미합니다.

GCP에 관심이 없더라도, Gemini를 쓰기 위해 GCP 계정을 열어야 합니다.
멀티 클라우드 전략을 쓰는 기업 입장에서는
- 인프라 구조가 더 복잡해지고
- 벤더 락인(잠김) 리스크가 커집니다.

현재 구글 발표에서

"클라우드 고객 70%가 AI를 사용 중"이라는 숫자가 등장하는데,
- 이 중 상당수는 Gemini 사용을 위해 GCP에 들어온 케이스일 가능성이 높습니다.

즉, 모델의 매력 때문에 인프라를 옮기는 흐름이 분명 존재하지만, 반대로 말하면

인프라의 자유도를 중요하게 여기는 팀에게는 아직 부담이 큰 선택지이기도 합니다.

실제 사용 경험: "가장 좋으면서, 동시에 가장 골치 아픈 모델"

개발자 리뷰들을 종합해 보면 Gemini 3 Pro는 상당히 독특한 위치에 놓여 있습니다.

긍정적인 피드백을 먼저 정리하면:

글쓰기 품질이 매우 높습니다.
- 장문의 에세이나 소설을 생성했을 때
- 실제 작가의 문장을 베낀 것이 아닌지 다시 확인하게 만들 정도라는 평가도 있습니다.
- 전형적인 "AI스러운 문체"에서 어느 정도 벗어나 자연스러운 리듬과 표현을 보여주는 편입니다.
속도와 UI 생성 능력이 강력해서
- 프론트엔드 개발자에게는 현재 시점 최선의 선택지 중 하나로 보입니다.
AMP 같은 서비스에서는
- 메인 모델을 통째로 Gemini 3 Pro로 교체했을 때
- 며칠 사이 내부 슬랙에서 역대급 긍정 피드백이 쏟아졌다고 평가합니다.

하지만 단점도 동시에 존재합니다.

에디터·CLI 환경에서
- 갑자기 멈추거나
- 무한 루프에 빠져 아무런 진전 없이 토큰만 태우는 상황이 반복적으로 등장합니다.
"스스로 만든 제약"에 갇혀서
- 해결 가능한 문제를 놓고도 "못 한다"고 선언해 버리거나
- 같은 실수를 계속 반복하는 경우도 적지 않습니다.

이 조합 때문에, 많은 개발자 리뷰에서 공통적으로 나오는 표현이 있습니다.

"지금까지 써 본 것 중 가장 뛰어난 모델이면서, 동시에 가장 많이 babysitting이 필요한 모델"

즉,

튜닝을 잘하고
테스트·도구·프롬프트를 정교하게 구성할 수 있는 팀에게는
- 엄청난 성능 레버리지를 주지만,
"한 번 눌러서 끝나는 마법 버튼"을 원하는 팀에게는
- 꽤 짜증나는 동료가 될 가능성이 있는 모델입니다.

Gemini 3 Pro 데이터 해석과 실제 선택 전략

수치와 경험담을 한 번에 놓고 보면, Gemini 3 Pro에 대한 평가는 크게 두 갈래로 나뉩니다.

지능·멀티모달·UI/코드 생성 측면

현 시점에서 최정상급 혹은 1위 후보로 보는 것이 무리는 아닙니다.
ARC-AGI, Humanity's Last Exam, UI 코딩, 3D 추론 등의 결과는
- 단순 마케팅을 넘어선 실질적인 성능 점프를 보여 줍니다.

환각률·토큰·비용·안정성 측면

환각률 지표만 놓고 보면
- GPT-5.1 계열보다 안전하지 않다는 해석이 타당해 보입니다.
토큰·가격 구조까지 포함하면
- 상시 대량 호출이 필요한 상용 서비스에는 비용 리스크가 상당히 크다고 볼 수 있습니다.
에디터·CLI 환경에서의 자잘한 버그·멈춤 문제는
- 구글이 향후 시스템 프롬프트·툴링을 개선할 수 있겠지만
- 단기간에 완전히 사라질 것으로 기대하기는 어렵습니다.

이런 요소들을 감안했을 때, 현실적인 선택 전략은 다음과 같은 방향이 될 가능성이 큽니다.

고난도 R&D, 프로토타입, UI·시각화 중심 과제
- 비용보다 완성도가 우선인 경우
- Gemini 3 Pro를 메인 혹은 보조 모델로 적극 활용하는 것이 합리적입니다.
사실 질의, 내부 지식 기반 QA, 비용 민감 대규모 서비스
- GPT-5.1, Claude Sonnet 등 환각률·단가·안정성이 더 나은 모델을 기본값으로 두고
- 특정 구간에서만 Gemini 3 Pro를 호출하는 하이브리드 구성이 필요해 보입니다.
인프라 전략 측면
- 이미 GCP를 쓰고 있거나, GCP 도입 계획이 있는 조직이라면
  - Gemini 3 Pro는 상당히 매력적인 선택지입니다.
- 반대로 멀티 클라우드/온프레 전략을 중시하는 조직에는
  - GCP 종속이 구조적 제약으로 작용할 가능성이 큽니다.

현 시점에서 내려볼 수 있는 평가는 대략 이 정도에 가깝습니다.

"가장 똑똑한 쪽에 속하는데, 가장 까다롭게 다뤄야 하는 모델"
"구글이 다시 한 번 정상에 올라섰지만, 비용·안정성·락인이라는 대가를 요구하는 선택지"

어떤 조직에 적합한지, 어떤 워크플로에 투입할지에 따라 평가는 크게 달라질 수밖에 없으며, 실제 현업에서는 여러 모델을 상황에 따라 조합하는 전략이 더 현실적인 해법이 될 가능성이 높아 보입니다.

출처 및 참고 :