Gemini 3 실제 성능 분석: UI 디자인 강점과 코딩 한계는?

Generated image 구글이 Gemini 3와 함께 여러 AI 도구를 공개한 뒤, 모델에 대한 기대와 과장이 동시에 쏟아지고 있습니다.

이번 글에서는 홍보 문구를 그대로 옮기기보다, 공개된 벤치마크와 실제 사용 사례를 기반으로 Gemini 3가 어디에서 강하고, 어디에서 여전히 아쉬운지 정리합니다.

특히 세 가지에 집중합니다.

코딩 관련 벤치마크에서의 위치
실전 UI 생성 및 앱 구현 능력
Gemini CLI와 에이전트 경험, 그리고 100만 토큰 컨텍스트의 의미

마지막에는 동일한 데이터를 놓고도 서로 다른 해석이 나올 수 있는 지점을 짚어, Gemini 3를 도입하거나 테스트하려는 입장에서 무엇을 주의해야 할지 정리합니다.

Gemini 3가 공개한 벤치마크: 숫자로 본 현재 위치

구글은 Gemini 1에서 진화한 모델이라고 강조하며, 이제 Gemini 3 Pro가 주요 앱의 기본 모델이 된다고 밝힌 상태입니다.

또한 블로그에서 AGI로 가는 큰 단계라고 표현했지만, 이 문장은 지난 1년간 거의 모든 상위 모델 제공자가 반복해 온 문구이기도 합니다.

공개된 벤치마크에서 눈에 띄는 부분은 코딩 관련 지표입니다.

Live Codebench Pro: 경쟁 프로그래밍 능력을 평가하는 벤치마크에서 Gemini 3는 Claude 4.5를 약 1,000점 차이로 앞서고, GPT 5.1보다 200점 높은 점수를 기록했다고 되어 있습니다.
Swebench Verified: 실제 GitHub 이슈를 해결하는 실용 코딩 벤치마크에서는 67.2% 해결률을 기록했고, 이 지표에서 Claude 4.5가 Gemini 3보다 1% 앞선 것으로 나타납니다.
TerminalBench 2: 실제 터미널 환경에서의 성능을 재는 이 벤치마크에서는, 구글 측 자료 기준으로 다른 프런티어 모델 대비 꽤 큰 우위를 주장하고 있습니다.

표면적인 숫자만 보았을 때, 코딩 능력만 놓고 보면 Gemini 3는 상위권 모델 중 하나인 것은 맞습니다.

다만, 이런 벤치마크가 실제 개발 환경에서의 경험과 완전히 일치하지 않는다는 점은 뒤에서 다시 다루게 됩니다.

멀티모달과 생태계: 종이 위가 아니라 도구에서 보이는 강점

구글은 Gemini 3가 멀티모달 이해에서 세계 최고 수준이라고 강조하고 있습니다.

이 주장에는 어느 정도 근거가 있습니다. 텍스트뿐 아니라 이미지, 코드, UI를 한 흐름에서 다루는 작업에 최적화된 도구들이 함께 공개되었기 때문입니다.

특히 눈에 띄는 요소는 다음과 같습니다.

AI 모드가 적용된 검색 경험
코드 작업에 최적화된 모델 버전
VS Code 포크인 Google Anti-gravity
Gemini CLI, Google AI Studio의 Code Assistant

이 중 실제 사용 경험에서 체감 차이가 가장 크게 나는 부분은 UI 생성 및 코드 기반 앱 구현 영역입니다.

모델 그 자체보다, 어떤 에이전트와 어떤 인터페이스로 감싸서 제공하느냐에 따라 결과물의 수준이 크게 달라진다는 점이 특히 인상적입니다.

Anti-gravity와 Gemini CLI에서의 실망스러운 첫인상

먼저 Google Anti-gravity(VS Code 포크)와 Gemini CLI 환경에서 UI 생성 능력을 테스트했을 때의 결과부터 정리해 보겠습니다.

테스트 조건은 단순합니다.

"MacOS를 완전히 사용할 수 있는 형태로 구현해 달라"
스택은 자유, 다만 확장 전제를 두지 말고 지금 상태로 쓸 수 있어야 함
UI와 기능이 제대로 동작해야 함

Anti-gravity에서 Gemini 3를 사용해 생성된 결과는 겉으로 보기에는 무난했습니다.

아이콘 등 시각 요소는 그럴듯했지만, 메뉴 바가 없고, 전반적인 구조가 다른 모델들이 흔히 생성하는 UI와 크게 다르지 않은 수준이었습니다.

흥미로운 점은, 비슷한 한계를 보였던 이유가 Gemini 3 자체 성능 때문이 아니라, 해당 에이전트의 구현 방식과 동작 로직에 더 큰 원인이 있었다는 점입니다.

Gemini CLI 역시 Gemini 3를 사용함에도,

UI 구성 요소가 제한적이고
에이전트가 에러를 처리하는 과정이 다소 불안정하며
빌드 명령 실행 후 불필요하게 10분씩 기다리는 현상이 발생하는 등

사용 경험 자체는 매끄럽지 못한 편이었습니다.

벤치마크 상으로는 뛰어난 모델이더라도, 에이전트·도구 레벨에서의 UX 품질이 뒷받침되지 않으면 실 사용 만족도가 크게 떨어질 수 있다는 사례로 볼 수 있습니다.

Google AI Studio에서 드러난 Gemini 3의 진짜 강점: UI 디자인

Anti-gravity, Gemini CLI에서 별다른 인상을 주지 못했던 것과 달리, Google AI Studio의 Code Assistant 환경에서 같은 모델을 사용했을 때 결과는 완전히 달라집니다.

같은 조건으로 MacOS UI를 생성해 보았을 때,

UI 완성도
애니메이션의 부드러움
디테일한 인터랙션

세 요소 모두에서 매우 높은 수준을 보여주었습니다.

이 구현은 HTML이 아니라 TypeScript 기반이었고, 애니메이션이 부드럽게 동작하는 모습이 상당히 인상적입니다.

특히 흥미로운 장면은 다음 부분입니다.

벽지가 어떤 이미지 모델로 생성된 것인지 물었더니,
단순 답변에 그치지 않고 Nano Banana 기반 이미지 생성 기능을 직접 구현해 설정 메뉴에 통합했습니다.
설정 화면에서 프롬프트를 입력하면, 고해상도에 가까운 품질의 배경 이미지가 자동으로 생성되는 구조를 만들어 냈습니다.

즉, UI 자체만 예쁘게 만드는 수준을 넘어, 에셋 생성까지 워크플로우 안으로 끌어들이는 능력을 보여준 셈입니다.

UI 관점에서만 본다면, Gemini 3는 현재 공개 모델 중 상위권이 아니라 아예 "디자인 특화 모델"에 가깝게 느껴질 정도의 결과물을 내놓습니다.

Claude, GPT 5.1과의 UI 비교: 안정성 vs 디자인 센스

같은 MacOS 스타일 UI를 생성하도록 했을 때, Claude와 GPT 5.1의 결과와 비교하면 Gemini 3의 특성이 더 분명해집니다.

Claude 4.5
- 캔버스 기반 뷰에서 기존에 자주 보던 단순한 UI 패턴을 반복해 구현했습니다.
- 결과물은 매우 안정적이고 예측 가능한 형태이지만, 디자인 관점에서는 특별한 감흥은 적은 편입니다.
- 작성자는 일상적인 사용에서는 여전히 Claude를 선호하는 이유로 Claude Code, 데스크톱 앱, 다양한 통합 경험을 언급합니다.
GPT 5.1
- 기본 구현은 Claude보다 약간 나은 정도의 UI를 보여줍니다.
- HTML로 구현해 달라고 별도 요청했을 때는, 그라디언트, 그림자 사용, 레이아웃 구성 등에서 한층 더 정제된 결과물을 냅니다.
Gemini 3 (Google AI Studio 기반)
- 전반적인 비주얼 완성도와 인터랙션 품질이 가장 뛰어난 편입니다.
- 특히 MacOS 스타일 UI를 구현할 때, 원본과 비교했을 때 상당히 유사한 구조와 분위기를 재현했습니다.

이를 종합하면, Claude는 안정성과 도구 생태계, GPT 5.1은 균형 잡힌 코드·UI 능력, Gemini 3는 UI 디자인·비주얼 구현에서 강점을 가진 모델이라는 구도가 어느 정도 드러납니다.

Mac 앱 구현 테스트: 100만 토큰 컨텍스트와 완성도 이슈

UI 예제로 끝내면 아쉬우므로, 실제 데스크톱 애플리케이션 구현 테스트도 진행된 사례가 있습니다.

테스트 대상은 Monkeytype 스타일의 타자 연습 Mac 앱입니다.

전체 개발은 3개의 페이즈로 나누고
각 페이즈 안에 여러 개의 스토리를 배치
실제 실행 가능한 앱을 목표로 구현 과정을 비교했습니다.

계획 단계는 Claude가 담당했고, 둘 다 동일한 스토리·동일한 요구사항을 받았습니다.

여기서 눈에 띄는 차이가 두 가지 있습니다.

컨텍스트 윈도우 사용량

Gemini CLI에서 사용된 Gemini 3는 컨텍스트 창 크기가 100만 토큰 수준으로 추정됩니다.
같은 스토리 7까지 진행했을 때 Gemini는 컨텍스트의 4%만 사용한 반면,
Claude는 컨텍스트가 가득 차 압축(compact)을 실행해야 했습니다.
이 차이는 장기적인 코드베이스를 다룰 때 상당한 실무적인 차이로 이어질 수 있습니다.

완성까지 걸린 시간과 품질

Gemini 3가 Claude보다 약 20분 빠르게 구현을 마쳤습니다.
속도 면에서 Gemini 3는 분명히 강점이 있습니다.

하지만 경험 자체를 보면,

Gemini CLI는 실행 중 여러 번 중단·오작동을 겪었고
빌드 명령 이후 필요 이상으로 대기하는 비효율적인 에이전트 동작이 반복되었습니다.

앱 결과물을 비교하면 다음과 같습니다.

Claude 구현본
- 기능은 대부분 동작하지만, UI 배치가 깨지고 텍스트가 밀집되어 가독성이 떨어지는 문제가 있었습니다.
- 테마 적용은 제대로 되었지만, 테마 메뉴에서 빠져나오지 못하는 버그가 남아 있었습니다.
- 가장 큰 문제는 화면에 단어가 표시되지 않는 버그로, 이를 수정하기 위해 4번 이상 리프롬프트가 필요했습니다.
Gemini 3 구현본
- 전반적으로 미려하고 정돈된 UI를 구현했습니다.
- 원본 서비스와 비교해도 상당히 유사한 느낌을 줄 정도로, 깔끔하고 미니멀한 디자인을 적용했습니다.
- 빌드 과정에서 문제는 있었지만, 코드베이스 에이전트를 실행한 뒤 주요 오류가 정리되는 흐름을 보였습니다.
- 요구사항 중 하나였던 사운드 효과를 실제로 구현해 넣었고, 이는 기본 지시 사항을 누락한 Claude와 대비되는 부분입니다.

이 사례만 놓고 보면, Gemini 3는 "디자인·연출·요구사항 충실도"에서 우위, Claude는 안정성·에코시스템·습관적인 사용성 측면에서 여전히 매력적인 선택지라고 볼 수 있습니다.

Gemini 3를 보는 차가운 시각: 기대와 한계를 동시에 고려해야 하는 이유

같은 데이터를 두고 다른 관점이 나올 수 있는 지점을 정리해 보면, Gemini 3에 대한 판단이 조금 더 균형 잡힙니다.

코딩 벤치마크 상위권이라는 사실

Live Codebench Pro, Swebench Verified, TerminalBench 2 등에서 나타난 수치는 분명히 높은 수준입니다.
특히 경쟁 프로그래밍과 터미널 환경 벤치마크에서는 상당히 공격적인 성능을 보여 줍니다.

그럼에도 체감상 "모든 것을 바꾸는 모델"이라고 보기 어려운 이유

이미 Claude Code 중심으로 구축된 도구·에이전트 생태계가 탄탄하게 자리잡은 상태입니다.
Gemini 쪽 도구들은 아직 에이전트 동작 품질, UX, 안정성에서 다듬어야 할 부분이 적지 않습니다.
실제 개발 흐름에서는, 모델 성능보다 에디터·CLI·코드베이스 에이전트가 얼마나 매끄럽게 협력하는지가 더 크게 체감됩니다.

1M 컨텍스트의 현실적인 의미

대형 코드베이스나 긴 작업 세션에서 문맥 유지 능력이 상당히 좋아질 가능성이 있습니다.
다만, 이 사양이 모든 인터페이스·모든 요금제에 그대로 제공될지는 아직 불확실합니다.
즉, 문서에 적힌 최대 수치가 실사용 환경에 동일하게 제공된다고 가정하기에는 이른 단계입니다.

UI 디자인 특화 모델로서의 포지션

현재까지 공개된 사례를 보면, Gemini 3는 UI 설계·비주얼 구현·애니메이션에서 매우 강한 인상을 주고 있습니다.
코드 품질만 놓고 비교하면 "경쟁 모델 대비 조금 더 낫거나 비슷한 정도"일 수 있지만,
제품 프로토타이핑·서비스 콘셉트 시각화·프런트엔드 초기 설계 등에서는 활용 가치가 상당히 높아 보입니다.

이런 점들을 고려하면, Gemini 3를 범용 개발용 메인 모델로 전환하는 선택은 신중하게 검토해야 하지만, UI/UX 설계와 시각적 프로토타이핑 용도로 병행 도입하는 것은 충분히 검토할 만한 선택지로 해석할 수 있습니다.

마무리하면, Gemini 3는 "모든 영역에서 최고의 모델"이라기보다, UI 디자인과 긴 문맥 기반 작업에서 강점을 가진 상위권 멀티모달 모델에 가깝습니다.

벤치마크 점수만 보지 않고,

어떤 도구와 함께 제공되는지
실제 작업 흐름에서 어떤 경험을 주는지
기존에 사용 중인 모델·툴체인과 어떻게 공존할 수 있는지

이 세 가지를 나란히 놓고 비교하는 쪽이, Gemini 3 도입 여부를 판단할 때 현실적인 선택 기준이 될 가능성이 큽니다.

출처 및 참고 :