포켓몬 게임을 강화학습으로 플레이하기 (유튜브 동영상)

수년 간에 걸쳐 강화학습(reinforcement learning)으로 포켓몬을 플레이한 프로젝트.

동영상으로 어떻게 프로젝트를 진행했는지 설명을 해줬다. 33분짜리 영상인데 올해 본 동영상 중 가장 인상 깊었다.

포켓몬 게임을 강화학습으로 플레이하기 (유튜브 동영상) image 1

이런 방식으로 화면이 바뀌면 리워드를 주고 (Explore) 레벨이 오르면 리워드를 주는 방식으로 AI를 훈련시켰다.

비디오에서는 훈련을 시키면서 겪었던 여러 시행 착오에 대해서 이야기 해준다. 예를 들어 화면이 바뀌는 것에 리워드를 줬더니 화면이 크게 바뀌지 않는 전투를 피하려고 해서 레벨이라는 리워드를 추가했다고 한다.

포켓몬 게임을 강화학습으로 플레이하기 (유튜브 동영상) image 2

이런 식으로 AI가 랜덤으로 플레이를 해서 리워드가 높은 방향으로 게임을 진행하는 것을 학습한다. 포켓몬 레드의 트레이너를 무찌르고 특정 동굴까지 진행하는 것까지 성공한 듯 하다.

파이썬 프로젝트로 다운받아서 직접 훈련된 모델로 게임을 실행하거나 훈련을 시킬 수 있다. 코드 : GitHub - PWhiddy/PokemonRedExperiments: Playing Pokemon Red with Reinforcement Learning

어떻게 이렇게 오랜 시간 연구를 할 수 있었을까? 놀랍다. 비디오도 잘 만든 것 같다.

참고로 알고리즘은 ChatGPT의 RLHF에서 사용한 PPO (Proximal Policy Optimization) 이다.