Skip to main content
Views 170

인공지능 로봇의 진화: Google Deepmind의 Gemini 모델이 만드는 새로운 에이전트 AI 시대

인공지능(AI)이 드디어 생각하는 로봇을 현실로 만들기 시작했습니다. Google Deepmind에서 출시한 두 개의 새로운 Gemini 모델은 단순한 명령 수행을 넘어서, 로봇에게 ‘계획하고, 스스로 판단하여 목표를 이루는 능력’을 선사합니다. 이 글에서는 에이전트 AI란 무엇인지, Gemini Robotics 1.5와 Gemini Robotics-ER 1.5가 어떻게 미래 로봇을 변화시키는지 쉽고 재미있게 살펴봅니다.



에이전트 AI란? 로봇이 직접 생각하고 행동한다!

에이전트 AI(agentic AI)는 목표 중심적이고 자율적인 인공지능을 뜻합니다. 기존 AI는 정해진 규칙 안에서 데이터를 처리하지만, 에이전트 AI는 스스로 계획을 세우고, 외부 도구(예: 인터넷 검색)를 활용하며, 상황에 맞게 결정을 내릴 수 있습니다. 로봇이 단순히 “이것을 해!”라는 명령을 받는 것이 아니라, “이 목적을 이루려면 어떤 과정을 거쳐야 하지?”라고 스스로 고민하는 것이죠. 실시간으로 환경을 인식하고, 여러 단계를 거쳐 문제를 해결하는 능력은 이제 로봇에게 필수가 되고 있습니다.

Gemini Robotics-ER 1.5: 로봇의 똑똑한 두뇌

Gemini Robotics-ER 1.5는 로봇의 “계획 세우는 두뇌” 역할을 합니다. 복잡한 작업 요청을 이해하고, 필요하면 인터넷에서 정보를 찾으며, 실행 과정을 여러 단계로 나눕니다. 예를 들어 “쓰레기를 지역별 기준에 따라 올바르게 분리해줘”라고 하면, 지역의 분리수거 규정을 검색하고, 눈앞의 각 물건이 어디로 가야 할지 파악한 뒤, 전체 작업 순서를 계획합니다. 작업이 진행될 때마다 성공 확률이나 진행 상황도 평가하며, 필요하면 도구(API, 다른 AI 모델 등)를 직접 불러 씁니다.

또한, Gemini Robotics-ER 1.5는 안전 기능도 내장해 있습니다. 로봇이 물체를 집어 올릴 때 무게 제한을 넘기거나, 위험한 움직임을 시도하면 즉시 계획을 거부하거나 수정을 요청하는 등, 철저한 조건 체크가 가능합니다.

Gemini Robotics 1.5: 직접 행동하는 손과 눈

계획이 완성되면, Gemini Robotics 1.5가 실제 행동을 수행합니다. 이 모델은 “생각하고 움직이는 손”으로 볼 수 있는데, 시각·언어·동작 데이터를 결합해 복잡한 작업을 단계별로 실행합니다. 이전 로봇은 단순한 명령을 기계적으로 따랐다면, Gemini Robotics 1.5는 행동 전에 주변을 더 깊게 파악하고, 각 단계를 어떻게 할지 미리 계획하며, “왜 이렇게 하는지”도 설명할 수 있습니다.

예를 들어, 빨래를 분류할 때 “흰 옷은 하얀 바구니에 넣기”라는 목표를 이해하고, 먼저 집을 물건을 골라 잡고, 바구니 위치를 파악하여 손을 움직입니다. 작업 중 충돌 위험 등 안전 문제가 발생하면 자동으로 회피하거나 동작을 중단할 수도 있습니다.

다양한 로봇 플랫폼에 손쉽게 적용되는 범용성

기존의 로봇은 한 기계에 맞게 ‘커스텀 모델’을 개발해야 했습니다. 하지만 Gemini Robotics 모델은 한 번 학습한 동작 패턴이나 전략을, 여러 가지 로봇 기종(예: Aloha 2, Apollo, Franka 등)에 곧바로 적용할 수 있습니다. 그만큼 범용성·확장성이 뛰어나서, 제조·서비스·실험실 등 다양한 현장에 빠르게 도입될 전망입니다.

더욱이 이 두 모델은 Gemini 멀티모달 AI 기술을 바탕으로 만들어져, 대규모 데이터를 다루는 힘과 빠른 적응 능력도 갖추고 있습니다.

개발자들이 Gemini Robotics-ER 1.5를 활용하는 방법

최신 Gemini Robotics-ER 1.5 모델은 Google AI Studio의 Gemini API를 통해 누구나 직접 활용해볼 수 있습니다. 실제 업무에서 “복잡한 제품 조립”, “식당에서 서빙 로봇의 주문 처리”, “물류창고 분류 작업”처럼 빠른 사고와 정교한 판단이 필요한 분야에 충분히 도전해볼 수 있습니다. Gemini Robotics 1.5는 현재 일부 파트너만 사용 가능하지만, 앞으로 개방될 경우 더 많은 혁신적 사례가 등장할 것으로 기대됩니다.

에이전트 AI 로봇으로 달라질 우리의 일상과 미래

Gemini의 등장으로 로봇은 단순한 ‘팔’이나 ‘눈’을 넘어, 상황을 분석하고, 스스로 목표를 이루는 ‘진짜 동료’가 되어갑니다. 반복적 업무는 물론, 판단이 필요한 복합 작업도 척척 해내는 시대에 가까워졌죠.

앞으로 로봇은 더 안전하고, 더 똑똑하며, 더 빠르게 우리의 일상과 산업 현장에 스며들 것입니다. 여러분의 아이디어와 Gemini 모델이 만나면, 상상 속 자동화가 현실이 되는 순간을 직접 체험할 수 있습니다. 구글 AI 스튜디오에서 시작해 보세요!


참고문헌

[1] Google Deepmind brings agentic AI capabilities into robots with two new Gemini models - decoder

[2] Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5 - Google Developers Blog

[3] Google DeepMind unveils its first “thinking” robotics AI - Ars Technica

[4] What is Agentic AI? - IBM

이미지 출처

인공지능 로봇의 진화: Google Deepmind의 Gemini 모델이 만드는 새로운 에이전트 AI 시대

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.