구글 Gemini 2.5 Computer Use: AI가 브라우저를 직접 조종하는 시대가 왔다

구글이 게임체인저급 AI 모델을 공개했다. 바로 Gemini 2.5 Computer Use. 이름에서 알 수 있듯이, 이 모델은 컴퓨터를 '사용'하는 AI다. 더 정확히 말하면, 웹 브라우저를 사람처럼 조작할 수 있는 AI 에이전트를 만들 수 있게 해주는 모델이다.

지금 당장 무료로 체험 가능

가장 중요한 포인트부터 말하자면, 일반인도 지금 바로 써볼 수 있다. gemini.browserbase.com에 접속하면 코드 한 줄 없이, 회원가입도 필요 없이 바로 테스트해볼 수 있다.

"2048 게임 해줘", "이 웹사이트에서 가격 비교해줘" 같은 명령만 입력하면 AI가 실시간으로 브라우저를 조작하는 모습을 눈으로 직접 확인할 수 있다. 클릭하고, 타이핑하고, 스크롤하면서 작업을 처리하는 과정을 보면 진짜 사람이 조작하는 것처럼 느껴진다.

Browserbase 데모에서는 Claude, OpenAI 모델과 나란히 비교하면서 테스트할 수도 있다. 어떤 AI가 특정 작업을 더 잘 수행하는지 직접 비교해볼 수 있는 "Browser Arena" 기능도 제공한다.

gemini

Gemini Computer Use란 정확히 무엇인가?

Gemini 2.5 Computer Use는 Gemini 2.5 Pro의 시각적 이해와 추론 능력을 기반으로 구축된 특화 모델이다. 일반적인 AI 모델이 텍스트를 생성하는 것과 달리, 이 모델은 UI 조작 명령(클릭, 타이핑, 스크롤 등)을 생성한다.

작동 방식은 이렇다:

사용자가 요청과 함께 화면 스크린샷을 모델에 전송
모델이 화면을 분석하고 다음에 취할 UI 액션을 결정
클라이언트 코드가 해당 액션을 실행
새로운 스크린샷과 URL을 다시 모델에 전송
작업이 완료될 때까지 이 과정 반복

현재 13가지 UI 액션을 지원한다: 클릭, 더블클릭, 우클릭, 타이핑, 드래그앤드롭, 스크롤, 탭 이동, 5초 대기, 브라우저 앞/뒤로 이동, 키보드 조합, 검색 등이다.

압도적인 벤치마크 성능

구글은 Gemini Computer Use가 경쟁 모델들을 벤치마크에서 압도한다고 주장한다. 실제 수치를 보면:

Online-Mind2Web: Gemini 65.7% vs Claude Sonnet 4 61.0% vs OpenAI Agent 44.3%
WebVoyager: Gemini 79.9% vs Claude 69.4% vs OpenAI 61.0%
AndroidWorld: Gemini 69.7% vs Claude 62.1%

특히 지연시간(latency)도 경쟁 모델 대비 낮아서, 실시간 작업에 더 적합하다는 평가다

G2r74fpbkAAcJj3

실제 활용 사례

이미 여러 기업과 팀들이 Gemini Computer Use를 실전에 투입하고 있다.

구글 결제 플랫폼 팀은 실패한 테스트 실행의 60% 이상을 자동으로 복구하는 데 성공했다. 이는 엔지니어링 비효율성의 주요 원인을 제거한 것이다.

Autotab(AI 에이전트 플랫폼)은 복잡한 데이터 파싱 작업에서 성능이 최대 18% 향상되었다고 보고했다.

Poke.com(프로액티브 AI 어시스턴트 제공업체)는 Gemini 모델이 경쟁 솔루션보다 인터페이스 상호작용에서 50% 더 빠르게 작동한다고 밝혔다.

구글 내부에서도 이미 활용 중이다. UI 테스트, Project Mariner, Firebase Testing Agent, AI Mode in Search의 일부 에이전트 기능에 이 모델의 버전들이 사용되고 있다.

가능한 작업들

Gemini Computer Use로 할 수 있는 작업들:

웹사이트에서 반복적인 데이터 입력 또는 양식 작성 자동화
웹 애플리케이션 및 사용자 플로우의 자동화된 테스트 수행
여러 웹사이트에서 리서치 수행 (예: 이커머스 사이트에서 제품 정보, 가격, 리뷰 수집)

초기 액세스 프로그램 참여자들은 개인 비서 구축, 워크플로우 자동화, UI 테스트 등에 활용하며 강력한 결과를 얻고 있다.

개발자는 어떻게 사용하나?

개발자들은 세 가지 방법으로 접근할 수 있다:

Google AI Studio - 빠른 프로토타이핑용 플랫폼
Vertex AI - 엔터프라이즈급 구글 클라우드 플랫폼
Browserbase와 연동 - 클라우드 VM에서 바로 사용

구글 공식 문서에서 "Playwright로 로컬에서 빌드하거나 Browserbase 클라우드 VM에서 빌드하세요"라고 제시하고 있다. Browserbase는 구글의 공식 협업 파트너로, 벤치마크 테스트도 함께 진행했다.

API 사용 시에는 gemini-2.5-computer-use-preview-10-2025 모델을 지정해야 하며, computer_use 도구를 통해 기능에 접근할 수 있다.

가격 정책

Gemini Computer Use는 Gemini 2.5 Pro와 동일한 가격 정책을 따른다. 다만 무료 티어는 제공되지 않는다.

구체적인 가격:

입력 토큰: $1.25 per million tokens (200K 이하)
출력 토큰: $10 per million tokens
200K 초과 시: 각각 $2.50, $15 per million tokens

Browserbase 데모는 무료로 제공되지만, 이는 체험용이며 실제 프로덕션에서 API를 사용하려면 비용이 발생한다.

한계와 제약사항

Gemini Computer Use는 웹 브라우저에 주로 최적화되어 있다. 모바일 UI 제어 작업에서도 강력한 성능을 보여주지만, 데스크톱 운영체제 수준의 제어에는 아직 최적화되지 않았다.

또한 Preview 모델이기 때문에 에러나 보안 취약점이 있을 수 있다. 구글은 중요한 작업에는 면밀한 감독이 필요하며, 중요한 의사결정, 민감한 데이터, 심각한 오류를 수정할 수 없는 작업에는 사용을 피하라고 권장한다.

안전 및 보안 문제

AI가 컴퓨터를 제어한다는 것은 강력한 만큼 위험할 수도 있다. 구글은 세 가지 주요 리스크를 식별했다:

사용자의 의도적 오용
예상치 못한 모델 행동
웹 환경에서의 프롬프트 인젝션 및 스캠

이에 대응하기 위해 구글은 여러 안전장치를 마련했다:

내장된 안전 기능: 모델에 직접 안전 기능을 훈련시켜 세 가지 리스크를 해결했다.

단계별 안전 서비스: 각 액션을 실행하기 전에 외부 안전 서비스가 평가한다.

시스템 지침: 개발자들은 에이전트가 고위험 행동(예: 구매, CAPTCHA 우회, 의료기기 제어)을 수행하기 전에 거부하거나 사용자 확인을 요청하도록 지정할 수 있다.

개발자들을 위한 권장사항도 제시한다:

샌드박스 환경(가상 머신, 도커 컨테이너 등)에서 에이전트 실행
사용자 생성 텍스트를 프롬프트에서 필터링
콘텐츠 가드레일 및 안전 API 사용
허용 목록 및 차단 목록으로 모델이 탐색할 수 있는 곳 제어

ChatGPT Agent와의 차이점

OpenAI의 ChatGPT Agent와 비교하면 어떨까? 둘 다 컴퓨터를 제어할 수 있지만 용도가 다르다.

ChatGPT Agent: 일반 사용자가 바로 쓸 수 있는 완성된 제품. 자체 가상환경에서 작동.
Gemini Computer Use: 개발자가 서비스를 만들 때 사용하는 API. 개발자가 직접 통합 필요.

다만 현재는 Browserbase 데모 덕분에 일반인도 Gemini Computer Use의 기능을 체험해볼 수 있다는 점이 흥미롭다.

AI 에이전트 시대의 시작

Gemini 2.5 Computer Use의 등장은 AI 에이전트 시대의 본격적인 시작을 알리는 신호탄이다. AI가 단순히 텍스트를 생성하는 것을 넘어, 실제로 웹을 탐색하고 작업을 수행할 수 있게 되었다.

데이터 수집, 테스트 자동화, 예약 시스템, 워크플로우 자동화 등 자동화할 수 있는 영역이 급격히 확대되고 있다. 물론 아직 Preview 단계이고 한계도 있지만, 방향성은 명확하다.

지금 gemini.browserbase.com에 접속해서 직접 체험해보는 것을 추천한다. AI가 브라우저를 조작하는 모습을 직접 보면, 우리가 막 진입한 새로운 시대의 가능성을 실감할 수 있을 것이다.

이런 최신 AI 소식을 매일 받아보고 싶다면? AI 스퀘어에서 전세계 AI 뉴스를 아침마다 브리핑해줘요. 들어오세요~ 비번은 tilnote

https://open.kakao.com/o/gK4NY6fg