Waypoint-1로 실시간 세계 탐험하기: 인터랙티브 비디오 디퓨전의 진화

Waypoint-1은 “영상이 재생되는 걸 보는 AI”가 아니라, 내가 마우스와 키보드로 조작하면 그에 맞춰 다음 프레임을 즉석에서 만들어주는 실시간 상호작용형 비디오 디퓨전 모델입니다. Overworld가 공개한 이 모델은 텍스트 지시뿐 아니라 WASD 이동, 마우스 시점 전환 같은 입력을 받아 “세계 자체를 생성하며 반응”한다는 점에서, AI 세계 모델(World Model) 경쟁의 기준선을 한 단계 올려놨습니다1.
이 글에서는 Waypoint-1이 무엇이 다른지, 지연 없이 조작이 되는 이유, 학습/추론 기술의 포인트, 그리고 게임·VR·크리에이티브에 어떤 파장을 만들지까지 한 번에 정리해보겠습니다.
Waypoint-1이란? 실시간 인터랙티브 비디오 월드 모델
기존 비디오 생성 모델은 보통 “한 번 프롬프트를 주면 영상이 쭉 나온다”에 가깝습니다. 반면 Waypoint-1은 생성 중간에 사용자가 끼어들어 조작할 수 있게 설계됐습니다.
쉽게 말해, 유튜브 영상 플레이어가 아니라 게임 엔진처럼 느껴지는 비디오 생성기입니다. 화면 속에서 앞으로 걷고, 시선을 돌리고, 상황에 따라 세계가 그때그때 이어지듯 생성됩니다1.
텍스트+마우스+키보드 입력: ‘조작하는 생성’이 핵심
Waypoint-1의 재미는 “프롬프트로 한 장면 만들기”가 아니라 “내 손으로 장면을 몰고 가기”에 있습니다. 텍스트로 분위기나 목표를 잡고, 마우스로 시점을 움직이고, 키보드로 이동하며 다음 프레임을 계속 받아보는 식이죠.
실제로 커뮤니티에서도 WASD와 마우스 조작으로 장면을 탐험하는 데모가 공유되며, ‘영상 생성’이라기보다 ‘플레이’에 가깝다는 반응이 나왔습니다2. 이런 형태는 게임 제작자, 인터랙티브 스토리텔러, 가상 공간 디자이너에게 특히 매력적인 인터페이스입니다.
프레임-인과 정류 플로우 트랜스포머: 왜 이렇게 자연스럽게 이어질까
Waypoint-1의 뼈대는 ‘프레임-인과 정류 플로우 트랜스포머’라는 구조입니다1. 이름이 어렵지만 요지는 간단합니다. “이전 프레임들과 사용자 입력을 바탕으로, 다음 프레임이 자연스럽게 이어지게” 만드는 데 초점을 둔 모델이라는 뜻입니다.
게다가 학습 데이터가 단순히 ‘영상’만이 아니었습니다. 1만 시간 이상의 다양한 게임 플레이 영상에 조작 입력, 텍스트 캡션까지 함께 묶어 학습시켰다고 알려졌습니다1. 그래서 화면 변화가 손 움직임과 따로 노는 게 아니라, 입력과 장면 전개가 한 덩어리처럼 맞물리는 느낌을 노린 거죠.
제어 지연이 적은 이유: 처음부터 ‘상호작용’으로 학습했다
많은 생성형 모델은 먼저 대규모 사전학습을 해놓고, 나중에 “간단한 컨트롤”을 얹는 방식으로 발전해왔습니다. 그런데 이런 접근은 조작이 늘어날수록 반응이 늦거나, 입력이 영상에 늦게 반영되는 문제가 생기기 쉽습니다.
Waypoint-1은 방향이 다릅니다. 처음부터 상호작용을 목표로 학습 파이프라인을 설계해, 마우스/키보드 자유 입력을 전제로 실시간 반응을 노렸습니다1. “나중에 조종법을 가르치는 것”이 아니라 “처음부터 운전 가능한 차로 만든 것”에 가깝습니다.
디퓨전 포싱·셀프 포싱: 오래 생성해도 무너지지 않게
실시간 생성에서 더 까다로운 건 ‘처음 몇 초’가 아니라 ‘몇 분 뒤’입니다. 프레임이 길어질수록 작은 오차가 누적돼 화면이 흐려지거나, 갑자기 맥락이 튀는 문제가 생기기 때문이죠.
Waypoint-1은 학습 과정에 ‘디퓨전 포싱’(과거 프레임을 조건으로 미래 프레임의 노이즈를 제거하는 방식)과 ‘셀프 포싱(Self Forcing)’(실제 추론 환경을 더 잘 반영해 누적 오차를 줄이는 방식) 같은 기법을 사용해 장기 생성 안정성을 개선했다고 설명합니다1. 한마디로 “길게 달려도 핸들이 흔들리지 않게” 튜닝한 셈입니다.
WorldEngine 추론 최적화: 가정용 하드웨어에서 실시간이 가능한가
실시간 상호작용이 되려면 “좋은 모델”만으론 부족하고, “빠른 추론 엔진”이 필요합니다. Waypoint-1은 WorldEngine이라는 고성능 추론 라이브러리 위에서 동작하며, 낮은 지연시간과 높은 처리량을 목표로 여러 최적화를 적용했다고 합니다1.
구체적으로 AdaLN 피처 캐싱, 정적 롤링 KV 캐시, matmul fusion, torch.compile 같은 최적화가 언급됩니다1. 그리고 Waypoint-1-Small(2.3B 파라미터)은 5090 GPU에서 4스텝 기준 30FPS, 2스텝 기준 60FPS를 시연 수준으로 제시했습니다1. “영상 생성은 느리다”라는 고정관념을 정면으로 깨려는 숫자입니다.
시사점을 정리해보면, Waypoint-1은 비디오 디퓨전을 ‘감상형 생성’에서 ‘조작형 생성’으로 옮겨놓은 사례에 가깝습니다. 게임에서는 프로토타이핑과 세계 탐색을, VR/가상공간에서는 즉흥적인 환경 합성을, 크리에이티브 영역에서는 관객이 스토리를 움직이는 인터랙티브 영상 실험을 밀어붙일 가능성이 큽니다1.
만약 개발자라면 “프레임을 생성한다”가 아니라 “입력 스트림으로 세계를 업데이트한다”는 관점으로 접근해보세요. 버튼 입력, 마우스 좌표 같은 컨트롤러 신호를 코드로 흘려보내며 장면을 만들 수 있다는 점은, 콘텐츠 제작을 넘어 제품 설계 방식 자체를 바꿀 수 있습니다1. 그리고 2026년 1월 20일 예정인 ‘world_engine’ 해커톤 같은 이벤트는, 이런 패러다임 전환을 빠르게 따라잡을 좋은 발판이 될 수 있겠습니다1.