육체적 게임에서도 사람을 이긴 AI 로봇, CyberRunner

물리 세계를 정복하는 AI의 새로운 돌파구, CyberRunner: 모델 기반 강화 학습을 활용한 로봇의 미로 탐험

CyberRunner는 모터, 카메라, 컴퓨터를 탑재하고 있어 사람처럼 라비린스 게임을 즐길 수 있는 차세대 AI 로봇이다. 사람이 수백만 개 판매된 이 인기 게임에 익숙해지기 위해선 정교한 운동 기술과 공간 인식 능력이 필요하며 많은 연습시간이 필요하지만, CyberRunner는 단 6시간의 연습만으로 빠른 시간에 미로를 해결하는 능력을 보여주었다. 사람처럼 CyberRunner는 미로를 해결하며 게임에 대한 이해를 지속적으로 개선하고 전략과 행동을 최적화한다. 6시간의 연습 후, CyberRunner는 이전에 기록된 시간보다 빠른 속도로 미로를 완료할 수 있다.

이 로봇은 카메라를 통해 얻은 저차원의 관측 데이터와 라비린스 내 현재 위치를 중심으로 한 잘라내고 교정한 이미지 패치를 결합해 미로의 구조에 관한 중요한 정보를 확보한다. 이 로봇은 두 개의 모터 (손), 카메라 (눈) 및 컴퓨터 (뇌)로 구성되어 있어 사람이 하는 것과 동일하게 게임을 할 수 있다.

로봇 시스템은 모델 기반 강화 학습 기법을 사용하여 물리적 환경에서 직접 제어 정책을 학습한다. 라비린스 경로를 따라 진행하는 것이 보상 신호로 활용되며, 시스템의 내재된 대칭성을 이용해 훈련 데이터를 증대시켜 효과적으로 학습한다. 최종적으로 CyberRunner는 단 5시간의 실제 세계 학습 데이터만으로 인기 있는 라비린스 게임을 성공적으로 해결하며 빠른 기록을 세웠다. 이 프로젝트는 오픈 소스로 진행되며, 관련 정보와 실제 로봇의 학습 과정은 CyberRunner.ai 웹사이트에서 확인할 수 있다.

이 연구는 AI가 단순한 디지털 환경 뿐만 아니라 복잡한 물리적 세계의 문제도 능숙하게 해결할 수 있는 잠재력을 보여주며, 모든 사람이 AI의 마법에 접근할 수 있게 하는 데 목표를 두고 있다.

흥미로운 점은 학습 과정에서 CyberRunner가 단축키를 발견하였다는 것이다. Maze의 일부를 건너뛰는 등 'cheating'하는 방법을 찾았다. 연구원들이 이에 개입하여 이러한 단축키를 사용하면 안되도록 명시적으로 지시해야만 했다.

육체적 게임에서도 사람을 이긴 AI 로봇, CyberRunner image 1

논문 원문

Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning