Google의 Genie - 프롬프트를 게임과 유사한 인터랙티브 환경으로 바꾸는 모델

Genie (Generative Interactive Environments)

구글의 지니는 프롬프트를 인터랙티브 환경으로 바꾸는 모델이다.

Google의 Genie - 프롬프트를 게임과 유사한 인터랙티브 환경으로 바꾸는 모델 image 1

이런 식으로 텍스트 프롬프트로 생성된 이미지, 손으로 그린 그림, 현실 세계 사진을 넣으면 콘트롤러로 움직임이 가능한 게임과 같이 만들어 준다.

2D 플랫포머 게임의 동영상이나 로보틱스에 초점을 맞추어 학습했으며 다른 영역에도 적용이 가능하다고 한다.

이는 추가적으로 가상 세계 (Virtual world) 를 만들어 로봇을 작동시켜 학습 시킬 수 있는 기회를 열 수 도 있다.

Google의 Genie - 프롬프트를 게임과 유사한 인터랙티브 환경으로 바꾸는 모델 image 2

연구자들이 실제로 2.5B 모델을 활용해서 RT1을 사용해 비디오로 학습을 진행한 화면이다. 플랫포머 게임과 같이 어느 정도의 행동 패턴을 발견할 수 있었다고 한다. 이는 Genie가 일관된 행동 공간을 학습할 수 있으며 다른 분야에도 적용을 할 수 있음을 나타낸다.

prompt to interactive 인 셈이다. sora가 world를 학습하는 것과 비슷한 움직임인것 같다. 세상의 물리적인 법칙을 다양한 방법을 통해 학습하는 것이다. 조금 과장하면 prompt to world 라고 말할 수 있을 것 같다.

지니의 경우 raw quality로 결과물을 생성하지만 높은 품질로 결과를 생성하는 것도 어려운 일은 아닌것 같다. 예를 들면 sora가 생성한 고퀄리티의 영상 속에서 움직일 수 있고 활동을 할 수도 있지 않을까?

물론 이걸 바탕으로 게임을 만들 수 도 있겠지만 정교하게 게임의 세부사항을 통제하거나 하는데는 시간이 걸릴것 같다. 시작은 playable world 정도이지 않을까?

그래도 이게 중요한 이유는 다양한 세계에 대한 환경을 만들고 이를 통해 인공지능이 학습을 할 수 있는 길이 열렸다는 것이다. 인공지능은 하나의 현상에 대해 정말 다양한 환경을 만들고 그곳에서 학습한 후 결과물들을 합쳐 통합된 지식을 가질 수 있을 것이다.

마지막으로 지니의 데모를 gif로 감상해 보시죠.

Google의 Genie - 프롬프트를 게임과 유사한 인터랙티브 환경으로 바꾸는 모델 image 3