NVIDIA Cosmos Policy로 여는 ‘비디오처럼 생각하는’ 고급 로봇 제어

Cosmos Policy는 NVIDIA가 공개한 최신 로봇 제어 연구로, 거대한 비디오(영상) 생성 모델을 “로봇의 손과 몸”으로 바꿔주는 방법입니다. 핵심은 Cosmos Predict-2 같은 세계 모델(world model)을 로봇 시연 데이터로 한 번 더 다듬어, 로봇이 행동을 고르고(제어) 결과를 미리 그려보며(계획) 성공 확률을 끌어올리는 데 있습니다. 이번 글에서는 Cosmos Policy가 왜 주목받는지, 기존 로봇 정책과 무엇이 달라졌는지, 그리고 개발자라면 어디서부터 만져볼 수 있는지까지 한 번에 정리해보겠습니다.

Cosmos Policy란? “비디오 모델을 로봇 정책으로”의 정답에 가까운 접근

로봇을 똑똑하게 만들려면 보통 두 가지가 필요합니다. 지금 뭘 보고 있는지 이해하는 능력, 그리고 다음에 무엇을 해야 할지 정하는 능력이죠. Cosmos Policy는 이 두 가지를 “비디오 모델의 시간 감각”으로 묶어버립니다.

흥미로운 지점은, 로봇 제어를 위해 아예 새 구조를 덧붙이는 대신 “이미 강력한 비디오 생성 모델을 로봇 시연 데이터로 단일 후학습(post-training)한다”는 점입니다. 그리고 그 과정에서 로봇의 행동(action), 미래 상태(state), 그리고 그 미래가 얼마나 ‘좋은지’를 나타내는 가치(value)까지 비디오 프레임처럼 같은 틀에 밀어 넣습니다.¹

정리하면, Cosmos Policy는 로봇에게 “내가 지금 이 장면의 다음 프레임을 만들어볼게… 근데 그 프레임은 영상뿐 아니라 ‘네 손 움직임’도 포함이야”라고 가르치는 방식에 가깝습니다.

왜 ‘비디오 프레임’ 방식이 로봇 조작에 강할까?

로봇 조작이 어려운 이유는 간단합니다. 물체는 미끄러지고, 가끔은 걸리고, 힘을 너무 주면 넘어지고, 손 위치가 조금만 달라도 결과가 바뀝니다. 즉 “정답이 하나가 아닌” 물리 세계를 상대해야 하죠.

비디오 모델은 원래 수많은 영상에서 시간에 따른 변화, 물체 간 상호작용, 움직임의 자연스러움 같은 ‘스파시오-템포럴(spatiotemporal) 감각’을 배웁니다. Cosmos Policy는 이 장점을 그대로 로봇 제어로 가져옵니다. 로봇의 물리 상태와 행동을 영상의 일부처럼 다루기 때문에, 모델이 이미 알고 있던 “시간에 따른 그럴듯한 변화”를 로봇 행동 예측에도 활용할 수 있습니다.¹

쉽게 말해, 예전 방식이 “로봇 행동을 숫자로 예측”했다면, Cosmos Policy는 “장면의 다음 전개를 통째로 상상하면서 그 안에 행동도 같이 넣는” 쪽에 더 가깝습니다.

LIBERO·RoboCasa에서 성능이 오른 이유: 행동을 ‘모델 내부 언어’로 번역했기 때문

벤치마크 성능이 올랐다는 얘기는 흔하지만, Cosmos Policy는 상승 이유가 비교적 명확합니다. 행동을 바깥 모듈에서 따로 만드는 게 아니라, 비디오 모델의 잠재 확산(latent diffusion) 과정 안에 “행동을 잠재 프레임으로 인코딩”해서 함께 생성한다는 설계가 포인트입니다.¹

이 방식은 로봇 입장에서 꽤 유리합니다. 시연 데이터로 학습할 때 “이 장면에서 손이 이렇게 움직이면 다음 장면이 이렇게 된다”가 모델 내부에서 한 문장처럼 연결됩니다. 그 결과 LIBERO와 RoboCasa에서 높은 성공률을 기록했다고 보고합니다.¹

성적표만 보면 LIBERO 평균 성공률 98.5%, RoboCasa 67.1%가 눈에 띄는데, 더 중요한 건 “비디오 모델을 로봇 정책으로 바꾸는 과정이 단순해졌는데도 성능이 올라갔다”는 흐름입니다.¹

‘계획(Planning)’까지 되는 로봇: 상상하고, 점수 매기고, 더 나은 걸 고른다

Cosmos Policy가 재미있는 건 “바로 행동”만 잘하는 게 아니라, 테스트 단계에서 계획까지 할 수 있다는 점입니다. 모델이 행동을 하나 뱉고 끝나는 게 아니라, 여러 후보 행동을 샘플링한 뒤 그 행동이 만들 미래 상태를 ‘상상’하고, 그 미래를 가치(value)로 평가해 더 유리한 선택을 고릅니다.¹

이게 왜 중요하냐면, 현실 로봇은 실수 비용이 비쌉니다. 컵을 떨어뜨리면 청소해야 하고, 집게가 물체를 튕기면 다시 잡아야 하고, 협동 로봇이라면 안전 이슈도 생깁니다. 그러니 “하기 전에 미리 시뮬레이션처럼 머릿속 실행”이 가능해지면 성공률이 오를 수밖에 없습니다.

논문에서는 실제 로봇 작업에서 모델 기반 계획을 사용했을 때 평균 작업 완료율이 12.5% 더 높았다고 보고합니다.¹

GR00T·Isaac과 만났을 때: 로봇 개발 파이프라인이 ‘한 덩어리’가 된다

Cosmos Policy 자체는 “정교한 조작 정책”에 초점이 있지만, NVIDIA가 그리는 큰 그림은 더 넓습니다. 예를 들어 Isaac GR00T N1.6은 시각-언어-행동(VLA) 모델에 세계 모델(예: Cosmos Reason)을 결합해, 지시를 단계적 계획으로 쪼개고 실제 행동으로 이어가는 흐름을 강조합니다.²

이 말은 곧, 앞으로는 로봇 스택이 “따로따로 잘하는 모델을 억지로 연결”하는 느낌이 아니라, 세계 모델(이해·예측)과 정책(제어)과 평가/시뮬레이션(검증)이 점점 자연스럽게 맞물릴 가능성이 크다는 뜻입니다. 개발자 입장에서는 학습-검증-실기기 전환(sim-to-real) 루프를 더 빠르게 돌릴 수 있고요.

Cosmos Cookoff 해커톤이 중요한 이유: 논문을 ‘내 프로젝트’로 바꾸는 가장 빠른 길

새로운 로봇 정책이 나올 때마다 늘 하는 말이 있죠. “그래서… 내가 당장 뭘 해볼 수 있는데?”

Cosmos 생태계는 이 질문에 비교적 직접적으로 답하려는 분위기입니다. NVIDIA는 Cosmos 모델로 실험하는 Cosmos Cookoff 해커톤을 열어, 최신 모델과 데이터셋을 가지고 빠르게 프로토타입을 만들 기회를 제공합니다. 게다가 Cosmos Cookbook 같은 자료로 활용 사례를 확장하고, 커뮤니티에서 경험을 공유하는 흐름도 함께 밀고 있습니다(개발자에게는 이런 ‘실습 동선’이 진짜 중요합니다).

개인적으로는, Cosmos Policy 같은 접근이 널리 퍼지려면 성능 숫자만큼이나 “재현 가능한 튜토리얼, 데이터 접근성, 평가 환경”이 중요한데, NVIDIA가 그쪽까지 같이 깔아주려 한다는 점이 꽤 실용적이라고 봅니다.

시사점을 한 줄로 정리하면 이렇습니다. Cosmos Policy는 “로봇 제어를 비디오 생성 문제로 번역”해, 행동 생성과 미래 예측과 계획을 한 프레임워크에 묶어 성능과 단순함을 동시에 노린 선택입니다. 로봇을 연구하는 사람에겐 모델 구조의 힌트가 되고, 제품을 만드는 사람에겐 성공률을 올릴 수 있는 실전 카드가 될 수 있습니다.

만약 당신이 로봇 조작(특히 양손 조작, 주방/가정 환경 같은 복잡한 장면)에 관심이 있다면, 이제 질문은 “로봇 정책을 뭘로 학습하지?”가 아니라 “어떤 비디오 세계 모델을 어떻게 내 로봇 언어로 번역하지?”로 바뀌고 있는지도 모르겠습니다.

참고

¹Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

²Building Generalist Humanoid Capabilities with NVIDIA Isaac GR00T N1.6 Using a Sim-to-Real Workflow | NVIDIA Technical Blog