메인 콘텐츠로 건너뛰기

SIMA 2: Gemini 기반 3D 게임 에이전트 이해하기

wislan
wislan
조회수 105
요약

핵심 요약

SIMA 2는 구글 딥마인드의 Gemini 모델을 기반으로, 3D 게임 화면을 직접 보며 키보드·마우스로 조작하는 범용 게임 에이전트입니다. 단순 지시 수행을 넘어, 목표를 스스로 사고하고, 다양한 게임과 새 환경에서 일반화하며, 자기 경험을 활용해 점점 더 잘 배우는 '자기 개선형' embodied AI입니다.

SIMA 2: Gemini 기반 3D 게임 에이전트 이해하기 image 1

SIMA 2란 무엇인가

SIMA 2는 "Scalable Instructable Multiworld Agent"의 두 번째 버전으로, 여러 종류의 3D 게임 속에서 사람처럼 화면을 보고 조작하는 인공지능 플레이어입니다.

게임 엔진 내부 정보나 치트 같은 특권은 사용하지 않고, 사람이 하는 것처럼 비디오 화면과 가상 키보드·마우스 입력만으로 세계를 이해하고 움직입니다.

이 덕분에 특정 게임에만 맞춘 봇이 아니라, 다양한 게임과 환경에 두루 적용 가능한 범용 행동 에이전트를 지향합니다.

SIMA 1에서 SIMA 2로: 가장 큰 변화

SIMA 1이 "명령을 잘 따라 하는 플레이어"였다면, SIMA 2는 "같이 계획하고 상의하는 동료 플레이어"에 가깝습니다.

이전 버전은 "왼쪽으로 가", "사다리 올라가"처럼 짧은 지시를 따라 하는 데 집중했다면, SIMA 2는 전체 목표를 이해하고 그에 맞는 세부 행동들을 스스로 구성합니다.

또한 사용자의 질문에 답하고, 자신의 전략과 다음 행동을 말로 설명하며, 새로운 게임과 미지의 환경에서도 적응하는 능력이 크게 강화되었습니다.

Gemini 통합: '생각하는 플레이어'로의 진화

SIMA 2의 핵심에는 Gemini 모델이 통합되어 있어, 언어 이해와 논리적 추론 능력이 에이전트의 "두뇌" 역할을 합니다.

사용자가 "지금 목표가 뭐라고 생각해?", "왜 저쪽으로 가는 거야?"라고 물으면, SIMA 2는 현재 상황을 해석해 자신의 의도와 계획을 설명할 수 있습니다.

즉, 단순히 입력 → 출력으로 반응하는 것이 아니라, 목표를 해석하고, 여러 선택지를 비교해 더 나은 행동 시퀀스를 고르는 "계획 세우기"가 가능해졌습니다.

학습 방식: 사람 시연 + Gemini 라벨 + 자기 플레이

SIMA 2는 크게 세 가지 종류의 데이터를 활용해 학습했습니다.

먼저 사람 플레이어의 시연 영상에 "무엇을 하고 있는지"를 설명하는 언어 라벨을 붙여, 화면과 행동, 언어 사이의 연결을 배웁니다.

여기에 Gemini가 자동으로 생성한 추가 설명과 피드백 라벨을 더해, 사람의 수동 라벨링 부담을 줄이면서 데이터 양과 다양성을 확장합니다.

학습이 진전된 뒤에는 SIMA 2가 스스로 게임을 플레이하며 경험 데이터를 쌓고, 그 경험을 이후 세대 에이전트의 학습 재료로 다시 활용해 성능을 끌어올립니다.

추론 능력: 목표 이해와 복잡한 행동 계획

SIMA 2는 단일 행동 명령이 아니라 "상위 목표"를 중심으로 사고합니다.

예를 들어 "밤이 되기 전에 기지 주변을 안전하게 만들어줘"라는 지시를 받으면, 주변을 정찰하고, 자원을 모으고, 방어 구조물을 세우는 등 여러 하위 행동을 스스로 구성해 나갑니다.

또한 상황을 살피며 "지금은 자원이 부족하니까 먼저 채집을 해야 한다"처럼 환경과 목표를 함께 고려하며 논리적인 판단을 내립니다.

이 덕분에 처음 보는 게임에서도 "캠프파이어를 찾아줘", "채집해서 도구를 만들자" 같은 비교적 추상적인 명령도 스스로 해석해 실행할 수 있습니다.

일반화: 다른 게임·새 환경에서도 통하는 이해

SIMA 2는 한 게임에서 배운 개념을 다른 게임에 옮겨 쓰는 능력이 강화되었습니다.

예를 들어 어떤 게임에서 "채광(mining)"으로 돌을 캐는 법을 배웠다면, 다른 게임에서 "수확(harvesting)"이라는 표현이 나와도, 자원을 채취해 가져온다는 공통 개념을 이해하고 비슷한 행동을 시도합니다.

ASKA나 MineDojo처럼 학습에 사용하지 않은 게임에서도, 사람에 가까운 성공률로 다양한 과제를 수행하며, "처음 보는 세계에서의 적응력"이 크게 향상된 것이 특징입니다.

SIMA 2: Gemini 기반 3D 게임 에이전트 이해하기 image 2

위 그래프는 다양한 게임에서 SIMA 1, SIMA 2, 인간의 과제 달성률을 비교한 것으로, SIMA 2가 인간 성능에 한층 가까워졌음을 보여줍니다.

멀티모달·다국어 이해: 말, 그림, 이모지까지

SIMA 2는 텍스트뿐 아니라 화면에 그린 스케치, 이모지 등 다양한 입력을 이해할 수 있습니다.

사용자가 지도 위에 화살표를 그리거나, 대략적인 구조를 낙서처럼 그려주면, 이를 목표 경로나 건설 계획으로 해석해 행동에 반영할 수 있습니다.

또한 여러 언어로 된 지시와 이모지 조합(예: "⛏️→⛰️")도 문맥 속에서 의미를 추론해 적절한 행동으로 이어갈 수 있어, 언어 장벽이 낮은 상호작용이 가능합니다.

Genie 3와의 결합: 완전히 새로운 세계에서의 시험

SIMA 2의 일반화 한계를 시험하기 위해, 한 장의 이미지나 텍스트 프롬프트로 새로운 3D 세계를 생성하는 Genie 3와 결합해 실험이 진행되었습니다.

Genie 3는 "사막 위 폐허 도시" 같은 텍스트만으로 전혀 새로운 가상 공간을 생성하고, SIMA 2는 그곳에 즉시 투입됩니다.

SIMA 2는 이런 처음 보는 세계에서도 방향 감각을 잡고, 사용자 지시를 이해하며, 목표를 향해 합리적인 행동을 수행하는 모습을 보여, "탐색형 적응력"이 상당히 높은 것으로 나타났습니다.

자기 개선 사이클: 스스로 과제를 만들고, 평가하고, 다시 학습하기

SIMA 2: Gemini 기반 3D 게임 에이전트 이해하기 image 3

SIMA 2의 가장 흥미로운 점 중 하나는 "자기 개선 루프"입니다.

  1. Gemini가 새로운 과제를 제안하고,

  2. SIMA 2가 그 과제를 수행하며,

  3. Gemini가 그 행동에 대한 보상(잘했는지, 못했는지)을 추정하고,

  4. 이 경험이 데이터 뱅크에 저장되어 다음 세대 에이전트의 학습에 활용됩니다.

이 과정은 별도의 사람 플레이 데이터 없이도 반복될 수 있어, 인간 개입이 줄어든 상태에서도 시간이 갈수록 점점 더 어려운 과제를 다룰 수 있는 방향으로 발전합니다.

현재 한계: 긴 시간 계획과 세밀한 조작

SIMA 2는 큰 도약을 이루었지만, 여전히 여러 제한이 있습니다.

우선, 매우 긴 시간에 걸친 복잡한 목표(예: 수십 단계에 걸친 건설·탐험·전투를 포함하는 퀘스트)는 계획 유지와 목표 검증이 어렵습니다.

또한 빠른 반응을 위해 사용 가능한 기억(컨텍스트 길이)이 제한적이라, 아주 오래 전의 사건을 장기적으로 추적하는 능력은 아직 부족합니다.

마지막으로, 마우스·키보드 기반의 미세한 조작과 복잡한 3D 장면의 완벽한 이해는 여전히 도전 과제로 남아 있으며, 이는 로보틱스와 시각 인식 전체 분야가 함께 풀어야 할 문제입니다.

로보틱스와 미래 적용 가능성

3D 게임은 현실 세계보다 위험과 비용 부담이 적어, 다양한 상황을 빠르게 반복 실험할 수 있는 "연습용 시뮬레이터" 역할을 합니다.

SIMA 2가 게임에서 익힌 능력들 — 공간 이동, 도구 사용, 협업, 목표 분해 및 계획 세우기 — 는 실제 로봇에게도 그대로 필요한 기본 기술들입니다.

따라서 이런 범용 게임 에이전트가 발전할수록, 나중에는 현실 환경에서 사람을 돕는 물리적 로봇 에이전트로 이어질 수 있는 가능성이 커집니다.

책임 있는 개발: 제한된 연구 공개와 안전 탐색

SIMA 2는 자기 개선과 범용성이라는 강력한 능력을 갖고 있기 때문에, 구글 딥마인드는 초기부터 책임성·안전성 팀과 함께 개발을 진행했습니다.

현재는 소수의 연구자와 게임 개발자에게만 제한적으로 공개되는 연구 프리뷰 단계이며, 실제 서비스나 대규모 배포는 고려되지 않은 상태입니다.

이 접근은 다양한 전문가의 피드백을 바탕으로 잠재적 위험을 미리 이해하고 완화 방안을 마련하면서, 기술의 방향성을 조정하려는 목적을 담고 있습니다.

인사이트

SIMA 2는 "언어 기반 대규모 모델 + 시각·행동 환경"을 결합해, 하나의 에이전트가 여러 세계에서 사고하고 행동하며 스스로 발전할 수 있음을 보여주는 사례입니다.

실용적인 관점에서 보면,

  • 게임·시뮬레이션은 안전하고 풍부한 데이터가 있는 "범용 에이전트 훈련장"이 되고,

  • 언어 모델의 추론 능력은 단순 자동화가 아니라 "대화 가능한 협업 파트너"로 진화하는 방향의 핵심 기반이 됩니다.

향후 이런 시스템을 설계하거나 활용할 때는,

  1. 다양한 환경에서의 일반화,

  2. 자기 개선 루프 설계,

  3. 사람과의 상호작용 방식,

  4. 안전 장치와 제한 범위 설정, 네 가지 축을 함께 고려하는 것이 중요합니다.

출처 및 참고 : SIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds - Google DeepMind

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.