메인 콘텐츠로 건너뛰기

NitroGen 일반지능 게임 에이전트 이해와 활용

요약

핵심 요약

NitroGen은 게임 화면(영상)을 바로 입력으로 받아 게임패드 조작을 출력하는 범용 게임 에이전트 모델이다.

40,000시간 규모의 다양한 게임 플레이 영상으로 학습되어 수많은 패드 기반 게임에서 사람처럼 행동을 모사할 수 있으며, 설치 후 비교적 간단한 명령어로 직접 게임을 플레이시키는 실험이 가능하다.

비전 트랜스포머와 확산 기반 트랜스포머 구조를 결합한 모델로, 연구·실험용 비상업적 사용에 적합하며 라이선스와 한계를 이해하고 사용하는 것이 중요하다.

NitroGen이란 무엇인가

NitroGen은 게임 화면을 보고 바로 조작을 결정하는 "비전-투-액션" 모델이다.

즉, 사람이 모니터를 보고 손으로 패드를 움직이듯, NitroGen은 RGB 이미지 프레임을 보고 곧바로 게임패드 입력을 생성한다.

이 모델은 1,000개가 넘는 게임, 총 40,000시간 분량의 플레이 데이터를 모사 학습하여 특정 한 게임 전용이 아니라 여러 장르에 두루 적용 가능한 범용 게임 에이전트를 목표로 한다.

잘 맞는 게임과 한계

NitroGen은 기본적으로 게임패드 조작을 기준으로 설계되었다.

그래서 액션, 플랫폼, 레이싱처럼 콘솔이나 패드에 최적화된 게임에서 가장 자연스럽게 동작할 가능성이 높다.

반대로 RTS, MOBA처럼 마우스 포인팅과 키보드 단축키에 크게 의존하는 장르는 이 모델이 직접적으로 다루기 어려워 성능이 떨어지거나 실험적 활용에 그칠 수 있다.

실제로 어떤 게임에서 어떤 행동을 하는지 확인하려면, 장르와 조작 체계가 패드 기반에 얼마나 가까운지를 먼저 점검하는 것이 좋다.

설치와 환경 준비

NitroGen을 사용하려면 먼저 깃허브 저장소를 가져와 파이썬 패키지로 설치해야 한다.

개발 환경에서 아래 명령으로 저장소를 클론하고, 편집 설치 모드로 패키지를 심는다.

git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen
pip install -e .

pip install -e . 방식은 로컬 소스를 바로 참조하기 때문에, 코드 수정을 하면서도 즉시 반영되는 개발용 설치 방식이다.

이 과정은 일반적인 파이썬 프로젝트와 유사해, 가상환경(venv, conda 등)을 미리 만드는 것이 권장된다.

체크포인트 다운로드와 추론 서버 구동

모델을 실제로 돌리기 위해서는 먼저 학습 완료된 가중치 파일(체크포인트)을 내려받아야 한다.

NitroGen은 허깅페이스에서 제공하는 체크포인트를 사용하며, 예시는 다음과 같다.

hf download nvidia/NitroGen ng.pt

다운로드가 끝나면 이 가중치를 불러오는 추론 서버를 실행해야 한다.

이 서버는 모델을 메모리에 올리고, 외부에서 들어오는 프레임 요청에 대해 액션을 계산해 응답하는 역할을 한다.

python scripts/serve.py <path_to_ng.pt>

<path_to_ng.pt>에는 실제로 다운로드한 ng.pt 파일 경로를 넣으면 된다.

이 단계를 통해 모델을 항상 새로 로딩할 필요 없이, 서버 형태로 여러 게임 실행과 연동할 수 있다.

게임 실행과 에이전트 연결

추론 서버가 켜진 다음에는 NitroGen 에이전트를 실제 게임 프로세스와 연결해 플레이를 시켜볼 수 있다.

현재 제공되는 스크립트는 윈도우 환경의 게임 실행 파일에 맞춰져 있으며, 다음과 같은 식으로 사용한다.

python scripts/play.py --process '<game_executable_name>.exe'

<game_executable_name>.exe 자리에 실제 게임 실행 파일 이름을 넣으면, 스크립트가 해당 프로세스의 화면을 캡처하고 NitroGen 서버로 보내 액션을 받아온다.

그 후 받은 액션을 실제 게임패드 입력처럼 전달해, 모델이 실시간으로 게임을 조작하는 흐름이 완성된다.

이 방식은 게임 자동 플레이 연구, 강화학습 환경 생성, 시연용 데모 등에 활용하기 좋다.

모델 구조와 입력·출력 형식

NitroGen의 핵심 구조는 두 부분으로 나뉜다.

첫 번째는 SigLip2 기반 비전 트랜스포머로, 256×256 크기의 RGB 이미지 프레임을 인코딩해 고차원 시각 표현으로 바꾼다.

두 번째는 Diffusion Matching Transformer(DiT)로, 이 시각 표현을 바탕으로 "미래의 조작"을 생성하는 모듈이다.

모델은 총 약 4.93×10^8개의 파라미터를 가지며, 하나의 입력 프레임에서 게임패드 전체 상태를 출력한다.

출력 형식은 21×16 구조로 표현되는데, 그 안에는 두 개의 2차원 연속값 벡터(좌·우 조이스틱 방향, 세기 등)와 17개의 이진 버튼 상태가 포함된다.

쉽게 말해 현재 프레임 기준으로 "양 엄지스틱을 어느 방향으로 어느 정도 움직이고, 어떤 버튼들을 누를지"를 한 번에 내놓는 셈이다.

학습 데이터와 행동 모사

NitroGen은 40,000시간에 달하는 인터넷 게임 플레이 영상을 활용해 행동 모사(behavior cloning) 방식으로 학습되었다.

행동 모사는 사람이 이미 플레이한 기록(화면 + 입력)을 보고, 같은 상황에서 비슷한 입력을 내도록 모델을 훈련하는 방법이다.

즉, 강화학습처럼 스스로 시도하면서 보상을 최적화하는 것이 아니라, "고수의 플레이 영상을 무수히 보고 따라 하는 연습"에 가깝다.

이 덕분에 다양한 장르, 다양한 플레이 스타일을 한꺼번에 흡수해 "범용" 패턴을 익힐 수 있지만, 특정 게임의 고난도 전략을 완벽히 이해했다고 보기는 어렵다.

인용과 연구 활용

학술 연구나 프로젝트에서 NitroGen을 사용했다면, 관련 논문을 인용해 출처를 명시해야 한다.

제공된 BibTeX 형태는 다음과 같이 사용할 수 있다.

@misc{magne2026nitrogen,
      title={NitroGen: An Open Foundation Model for Generalist Gaming Agents}, 
      author={Loïc Magne and Anas Awadalla and Guanzhi Wang and Yinzhen Xu and Joshua Belofsky and Fengyuan Hu and Joohwan Kim and Ludwig Schmidt and Georgia Gkioxari and Jan Kautz and Yisong Yue and Yejin Choi and Yuke Zhu and Linxi "Jim" Fan},
      year={2026},
      eprint={2601.02427},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.02427}, 
}

연구 보고서, 논문, 발표 자료에 NitroGen 성능을 언급하거나 비교 실험을 싣는 경우, 위 인용 정보를 그대로 포함하면 된다.

이는 원저자들의 공로를 명확히 하고, 재현 가능한 연구 문화를 유지하는 데에도 중요하다.

라이선스와 사용 제약

NitroGen 모델은 NVIDIA의 비상업용 라이선스를 따른다.

이는 기본적으로 연구, 개인 학습, 비영리 프로젝트에 사용하는 것은 가능하지만, 상업 서비스나 제품에 바로 포함하는 것은 제한될 수 있음을 의미한다.

또한 모델의 시각 백본으로 사용된 SigLip2는 Apache 2.0 라이선스라 비교적 자유로운 사용이 가능하지만, 전체 NitroGen 패키지는 NVIDIA 라이선스의 조건을 우선적으로 고려해야 한다.

실제 프로젝트에 활용하기 전에 반드시 라이선스 문서를 확인하고, 특히 기업 환경에서는 법무 검토를 거치는 것이 안전하다.

인사이트

NitroGen은 "게임 플레이를 이해해 행동으로 옮기는" 일반화된 능력을 보여주는 사례로, 비전·시퀀스 모델을 실제 환경에 연결하는 좋은 실습 재료가 된다.

직접 활용해보고 싶다면, 먼저 패드 기반의 단순한 액션 게임 하나를 정해 설치·서버 실행·게임 연결 순서대로 실험해 보는 것이 좋다.

그 과정에서 화면 캡처 주기, 해상도, 입력 지연이 성능에 어떤 영향을 주는지 조정해보면, 향후 자신만의 게임 에이전트나 로봇 비전-컨트롤 시스템을 설계할 때도 큰 감을 잡을 수 있다.

마지막으로, 이 모델은 "만능 게임 고수"라기보다는 "대규모 시연을 모사한 일반 플레이어"에 가깝다는 점을 기억하고, 연구·아이디어 실험, 프로토타입 제작 등에 알맞게 활용하는 것이 효과적이다.

출처 및 참고:

#게임 인공지능#비전 트랜스포머#행동 모사#딥러닝 모델#패드 기반 게임

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.