메인 콘텐츠로 건너뛰기
page thumbnail

AI와 인공지능의 진화: Google DeepMind SIMA 2와 Gemini의 환상적인 만남

인공지능(AI)은 단순한 챗봇 단계를 훌쩍 넘어, 이제는 3D 가상 세계에서 추론하고 학습하며 스스로 성장하기 시작했습니다. Google DeepMind가 발표한 SIMA 2는 그 대표적인 혁신으로, Gemini라는 강력한 AI 모델이 결합되어 게임뿐 아니라 다양한 가상 환경에서 인간과 같이 ‘생각하고, 배우며, 대화하는’ 에이전트로 거듭났습니다. 오늘은 SIMA 2가 실제로 무엇을 할 수 있고, 인공지능의 미래에 어떤 의미를 갖는지 꼼꼼하게 살펴보겠습니다.

SIMA 2: 게임 속 동료에서 진짜 동반자로

처음 SIMA 1이 등장했을 때만 해도, ‘AI가 명령을 따라 게임 속 캐릭터를 움직인다’는 수준이었습니다. 예를 들어 "왼쪽으로 가", "지도 열어"와 같은 단순 지시를 수행하는 정도였죠. 하지만 SIMA 2로 넘어오면서 상황이 완전히 달라졌습니다. 이제는 목표를 직접 설정하고, 사용자의 지시를 스스로 해석하며, 자신이 무엇을 하고 있는지 과정까지 설명할 수 있게 된 것입니다.

단순한 실행기가 아니라, 마치 게임 속에서 함께 미션을 수행하는 동료처럼 AI가 우리와 협력하는 경험이 가능한 셈입니다. 예를 들어, "잘 익은 토마토 색 집으로 가줘"라고 하면, SIMA 2는 '토마토는 빨간색'이라는 논리적 연결을 만들고, 정확하게 빨간 집을 찾아가죠.

Gemini의 힘: 다중 언어, 여러 입력 방식, 그리고 추론

SIMA 2의 핵심은 Gemini 모델의 언어 이해와 추론 능력입니다. SIMA 2는 텍스트뿐만 아니라 그림, 음성, 심지어는 이모지까지도 명령으로 받아들입니다. 예를 들어 "🪓🌲"라고 입력하면 ‘도끼로 나무를 자른다’는 뜻으로 해석하고, 해당 행동을 실행합니다.

뿐만 아니라 영어, 한국어 등 다양한 언어를 이해하며, 화면에 그린 지도나 스케치를 보고도 행동할 수 있습니다. 즉, 인간이 게임에서 목표를 바꿔가며 지시를 내리듯, SIMA 2 역시 새로운 환경과 복잡한 목적에 유연하게 적응합니다.

실제 실험에서는 MineDojo(마인크래프트 연구 버전)와 ASKA(바이킹 생존 게임) 등 전혀 접해보지 못한 게임에서도 45~75%의 성공률을 보여주었습니다. 이전 버전은 15~30%에 머물렀던 것과 비교하면 혁신적인 성장이죠.

완전히 새로운 환경도 OK! Genie와의 협업으로 탄생한 ‘무한 도장’

SIMA 2의 진짜 능력은 Genie 3이라는 DeepMind의 세계 생성 AI와 협력할 때 극대화됩니다. Genie는 이미지나 간단한 문장만으로도 실시간으로 새로운 3D 가상 세계를 만들어냅니다. SIMA 2는 이런 ‘처음 보는’ 환경에서도 즉석에서 적응하여 사용자의 명령을 이해하고, 목표를 달성하기 위해 필요한 행동을 스스로 계획합니다.

이것이 가능한 이유는 하나의 환경에서 학습한 개념(예: ‘채광’)을 완전히 다른 환경의 유사 개념(예: ‘수확’)에 적용하는 '추론력'이 탑재되었기 때문입니다. 인간처럼 ‘아하, 이건 저번에 했던 것과 비슷하군’ 하며 방법을 전이하는 거죠.

인간의 도움 없이 스스로 성장하는 AI의 시대

AI 업계의 오랜 난제 중 하나는 ‘데이터 레이블링 비용’입니다. 즉, 사람이 하나하나 정답을 붙여줘야 했던 것이죠. SIMA 2는 Gemini의 생성 능력을 활용해, 스스로 과제를 만들고 즉시 피드백을 받아 자가 개선합니다. 실패하면 AI가 팁을 주고, 다시 도전하는 식이죠.

이렇게 함으로써 SIMA 2는 완전히 새로운 환경에서도 반복적인 시행착오를 통해 점점 더 고도화됩니다. 이제는 데이터 준비에 드는 인적 자원과 비용 부담이 줄어들면서, 훨씬 빠르고 폭넓은 AI 적용이 가능해졌습니다.

SIMA 2, 로봇공학과 미래 지능형 에이전트의 초석

SIMA 2가 보여준 ‘게임에서 배우는 능력’을 실제 로봇에 적용하면 어떻게 될까요? DeepMind 연구진은 SIMA 2를 ‘고차원 논리와 환경 이해, 목표 지정’을 담당하는 상위 제어 시스템으로 보고 있습니다. 이후 실제 로봇의 팔, 바퀴, 센서 등의 미세 제어는 별도의 하위 시스템이 맡게 되죠.

즉, “부엌 찬장에 콩이 몇 개 남았는지 확인해줘”라는 인간의 요청도, 콩/찬장/이동/인식 등 여러 개념을 조합해 실제 동작으로 옮길 능력이 생기는 겁니다. 물론 현실 세계는 게임보다 더 복잡하고, 시야·조명·입력 등의 변수도 많지만, SIMA 2의 진보는 그 격차를 점차 좁히고 있습니다.

아직 남은 과제들… 그리고 앞으로의 기대

아직 SIMA 2는 여러 도전 과제를 안고 있습니다. 복잡하고 단계가 긴 일에는 어려움을 겪으며, 시뮬레이션 기반 마우스·키보드 제어도 인간 수준에는 미치지 못합니다. 또한 장기 기억과 지속적인 맥락 유지 능력이 제한적이죠. 하지만 빠르게 성장하는 AI 분야에서, SIMA 2와 같은 모델이 갖추게 될 ‘협력·추론·자가개선’ 능력은 실질적인 서비스로 확장될 날을 앞당기고 있습니다.

현재 SIMA 2는 연구용으로만 공개되어 있지만, 학계·게임업계와의 협력을 통해 보완과 이해가 이루어진 후에는 더 넓은 영역에서 만날 수 있게 될 것입니다.


미래의 AI는 우리 곁에서 단순한 명령 수행자를 넘어, 문제를 이해하고 스스로 해결방식을 찾으며 계속 성장하는 ‘진정한 동료’가 될 것입니다. SIMA 2는 그 여정에서 중요한 분기점을 만든 주역으로, 앞으로 실생활 로봇·디지털 트윈·지능형 어시스턴트 등 수많은 분야로 진출할 것입니다. 이제는 우리도 AI와 함께 한계를 뛰어넘는 경험을 기대해 볼 때입니다.

참고

[1] Google's SIMA 2 agent uses Gemini to reason and act in virtual worlds - TechCrunch

[2] Google Deepmind is using Gemini to train agents inside Goat Simulator 3 - MIT Technology Review

[3] Google DeepMind's SIMA 2 agent learns to think and act inside virtual worlds - SiliconANGLE

[4] Deepmind’s latest AI agent learns by exploring unfamiliar games and AI-built worlds - THE DECODER

[5] Google’s SIMA 2 agent uses Gemini in virtual worlds - FindArticles

[6] SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds - Google DeepMind