메인 콘텐츠로 건너뛰기
page thumbnail

월드 모델과 공간 지능: 트랜스포머 이후 AI가 가야 할 길은?

DODOSEE
DODOSEE
조회수 10
요약

AI 클립으로 정리됨

출처 및 참고 : https://www.youtube.com/watch?v=9VcXiyE40xw

Generated image

AI 성능이 언어 모델과 이미지 생성에서 극적으로 올라가면서 많은 논의가 텍스트와 픽셀에 집중되어 있습니다. 그런데 정작 인간 지능의 상당 부분은 글도, 문장도 아닌 공간·물리 세계와 상호작용하는 능력에 기반합니다.

페이페이 리(Fei-Fei Li)가 이끄는 월드랩스(World Labs)의 월드 모델과 3D 생성 모델 Marble, 그리고 그 기반이 되는 RTFM(Real-Time Frame Model) 은 이 공백을 정면에서 다룹니다.

아래에서는

  • 왜 공간 지능이 다음 세대 AI의 핵심인지

  • 월드 모델이 언어 모델과 어떻게 다르고 보완하는지

  • RTFM이 어떤 방식으로 3D 일관성을 유지하는지

  • 물리 법칙, 지속 학습, 새 아키텍처와의 연결 가능성은 무엇인지 를 정리하고, 끝에서 제3자 시각으로 이 접근을 비판적으로 정리합니다.

언어 모델만으로는 부족한 이유와 공간 지능의 필요성

현재의 대형 언어 모델은 인간 지식 중 텍스트로 기록된 일부분만을 학습합니다. 이 부분이 방대하긴 하지만, 실제 인간이 세상을 배우는 방법의 전체는 아닙니다.

유아는 말을 배우기 전에 이미 물건을 잡고, 떨어뜨리고, 기어 다니며 중력과 거리감을 체득합니다. 화재 현장에서 소방관이 불을 끄는 상황, 구조 현장에서의 판단, 복잡한 3D 구조물 설계와 같은 작업들은 설명서를 읽는 것만으로 해결되지 않습니다.

페이페이 리가 강조하는 공간 지능은 다음과 같은 특징을 가집니다.

  • 지각: 3D 환경을 인식하고, 객체의 위치·형태·관계를 파악

  • 추론: 이 환경에서 어떤 일이 일어날지, 무엇이 가능한지 상상

  • 행동: 로봇, 아바타, 에이전트 등을 통해 실제로 움직이고 조작

현재의 LLM은 주로 문장을 예측하는 데 특화되어 있지만, "불을 끄는 방법을 말로 설명하는 것"과 "실제 불을 끄는 행위" 사이의 간극을 채우기 어렵습니다. 이 간극이 바로 공간 지능이 필요한 지점입니다.

월드 모델과 Marble: 3D 세계를 만드는 AI의 내부 구조

월드랩스의 Marble은 텍스트, 이미지, 비디오, 거친 3D 레이아웃(박스·복셀) 등 다양한 입력을 받아 일관된 3D 공간을 생성합니다.

중요한 점은, Marble이 단순히 2D 프레임을 이어 붙이는 것이 아니라 내부에 세계에 대한 표현을 가지고 있다는 점입니다. 예를 들어, 모니터 앞에서 한 방향으로만 방을 보더라도, 모델은 보이지 않는 뒷면의 형상까지 내적으로 추론하고, 카메라 시점을 바꾸면 그 뒷면을 일관되게 렌더링합니다.

이 과정에서

  • 입력은 멀티모달(텍스트, 이미지, 비디오, 3D 레이아웃)이고

  • 내부 표현은 암묵적(implicit) + 명시적(explicit) 3D 표현이 혼합되어 있으며

  • 출력은 명시적인 3D 구조로 제공됩니다.

이 명시적 3D 출력은 이유가 분명합니다. 게임, VFX, 인테리어, 로봇 시뮬레이션, 디지털 트윈 등 산업 현장의 워크플로는 이미 대부분 3D 좌표계를 기반으로 운영되고 있습니다.

따라서 월드랩스의 전략은

  • 연구 관점에서는 암묵적 세계 모델을 탐구하면서

  • 산업 관점에서는 바로 활용 가능한 3D 자산을 제공하는 쪽으로 설계를 선택한 것으로 볼 수 있습니다.

RTFM: "다음 프레임 예측"으로 3D 일관성을 잡는 방식

RTFM(Real-Time Frame Model)은 Marble의 기반이 되는 프레임 기반 생성 모델입니다. 핵심 목표는 두 가지입니다.

  • 시간 축을 따라가는 프레임 생성

  • 그 과정에서 기하학적 일관성과 장면의 지속성 유지

기존 프레임 기반 비디오 생성 모델은 시간이 지날수록

  • 객체가 사라지거나

  • 색이나 위치가 조금씩 틀어지고

  • 장면의 구조가 붕괴되는 문제가 흔했습니다.

RTFM은 이 부분에서 3D 일관성을 유지하는 데 큰 비중을 둡니다.

또 하나 주목할 점은 추론 효율입니다. 공개된 정보에 따르면, RTFM 기반 모델은 추론 시 단일 H100 GPU 하나로 동작하도록 설계되었습니다. 다른 프레임 기반 모델들은 추론에 몇 개의 칩을 쓰는지 명시하지 않는 경우가 많은데, 월드랩스는 연산 비용 자체를 설계 제약으로 잡고 있다는 점이 특징적입니다.

RTFM의 목적 함수는 다음 프레임 예측입니다. 언어 모델의 다음 토큰 예측과 유사하게 보이지만, 2D 프레임을 다루는 만큼 3D 구조를 암묵적으로 유지하면서 예측하는 설계를 취합니다. 그래서 한 시점에서 보이지 않는 객체의 뒷면까지 내적으로 상정하고, 카메라가 이동해도 모순 없이 프레임을 생성할 수 있습니다.

세계를 어떻게 배울 것인가: 텍스트를 넘는 멀티센서리 학습

월드 모델의 핵심 전제는 "세계에 대한 지식은 텍스트만으로 충분하지 않다"는 점입니다. 인간과 동물은 다음과 같은 다양한 감각을 통해 세상을 이해합니다.

  • 시각(영상, 깊이, 움직임)

  • 청각(소리, 방향성)

  • 촉각(질감, 저항, 진동)

  • 후각, 온도, 힘 등 물리적 자극

현 시점에서 Marble과 RTFM은 주로 시각 중심 + 텍스트 조건의 형태이지만, 페이페이 리는 멀티모달 입력·학습을 앞으로 더 확장하겠다고 명시합니다.

또 한 가지 중요한 관점은 능동적 경험입니다. 세상은 단지 비디오 스트림이 아닙니다. 실제 지능은

  • 움직이고

  • 물체를 잡고

  • 환경을 바꾸고

  • 그 결과를 다시 지각 하는 루프 구조 속에서 학습합니다.

현재 Marble은 정적 세계 생성에 초점을 두고 있지만, 장기적으로는 로봇, 에이전트, 시뮬레이션 환경과 연결된 능동적 학습이 중요한 축이 될 가능성이 큽니다.

AI와 물리 법칙: 지금의 모델이 하고 있는 것은 '통계'에 가깝다

Gen AI 데모에서 흔히 볼 수 있는 물 흐름, 나뭇잎 흔들림, 떨어지는 물체 등의 표현은 보기에는 물리적으로 자연스러워 보입니다. 그러나 페이페이 리의 설명에 따르면, 이는 뉴턴역학을 내부에 구현했기 때문이 아니라, 데이터에서 본 패턴을 통계적으로 재현한 결과에 가깝습니다.

  • "물리 엔진 기반"이 아니라 "물리처럼 보이는 통계 패턴"인 셈입니다.

  • RTFM 역시 현재 버전에서는 정적인 세계 표현에 집중하고 있고, 물리 법칙을 명시적으로 모델링하지는 않습니다.

향후에는 다음과 같은 방향이 거론됩니다.

  • 월드 모델이 만들어낸 3D 세계를 Unreal Engine 같은 물리 엔진에 넣어 시뮬레이션

  • 장기적으로는 신경망 기반 표현과 물리 엔진이 결합된 뉴로-스페이셜 엔진과 같은 형태로 진화

다만, AI 스스로가 뉴턴 역학 수준의 추상적인 물리 법칙을 "발견"했는가에 대해서는 회의적 입장을 취합니다. 현재까지는 통계적 동역학 모델링 수준에서 크게 벗어나지 못하고 있다는 판단입니다.

지속 학습과 "세계 경험"을 쌓는 AI의 가능성

기존 LLM의 주요 한계 중 하나는 훈련이 끝나면 파라미터가 고정되고, 그 이후에는 지속적으로 세상을 배우지 않는다는 점입니다. 컨텍스트를 활용한 일시적 적응이나 일부 파인튜닝 기법이 존재하지만, 인간처럼 매일 환경과 상호작용하며 업데이트되는 학습 체계와는 거리가 있습니다.

월드 모델의 비전에서 중요한 축은 다음과 같은 시나리오입니다.

  • 카메라가 달린 로봇이나 에이전트가

  • 실제 혹은 가상 환경을 돌아다니며

  • 새로운 공간, 물체, 상황을 경험하고

  • 이 경험을 통해 내부 세계 모델을 점진적으로 고도화

페이페이 리 역시 온라인·지속 학습의 필요성은 강하게 인정하지만, 현재 Marble은 여전히 배치/오프라인 학습에 더 가깝습니다.

지속 학습은 크게 세 층으로 나눌 수 있습니다.

  • 단기: 컨텍스트·메모리 기반 일시적 적응

  • 중기: 특정 사용자·환경에 맞춘 파인튜닝

  • 장기: 모델 아키텍처 수준에서의 진화 가능한 세계 모델

특히 공간 지능을 로봇, 개인화된 크리에이터 도구 등과 결합하려면 시간 축에서의 업데이트와 잊지 않기(망각 제어)가 필수적 과제가 될 것으로 보입니다.

다음 아키텍처를 향해: "보편적 과업 함수"와 트랜스포머의 한계

대형 언어 모델의 성공에는 다음 토큰 예측이라는 간단하면서도 강력한 목적 함수가 크게 기여했습니다. 학습 시의 목표와 추론 시의 사용 방식이 거의 완전히 일치하기 때문입니다.

공간·세계 모델에서는 이와 대응되는 보편적 과업 함수(universal task function)가 무엇인지가 아직 명확하지 않습니다. 대표 후보로 거론되는 것들이 있습니다.

  • 정밀한 3D 재구성: 세계를 정확한 3D로 복원하도록 학습

  • 다음 프레임 예측: 비디오의 시간 축을 따라가며 구조를 학습

하지만 각각 문제점이 지적됩니다.

  • 정밀 3D 재구성은 매력적이지만, 실제 동물의 뇌가 그렇게까지 정밀한 3D 모델을 만드는지는 불분명합니다.

  • 다음 프레임 예측은 데이터와 구현이 용이하지만, 2D로 세계를 "납작하게" 취급하는 한계와 비효율이 존재합니다.

페이페이 리는 트랜스포머가 AI의 마지막 아키텍처가 될 것이라고 보지 않습니다. 언어·비전·세계 모델을 관통하는, 새로운 형태의 표현·추론 구조가 등장할 가능성을 열어 두고 있습니다.

특히 물리 법칙 수준의 추상화, 인과 관계의 명시적 표현, 멀티모달·공간·시간 통합 표현을 동시에 다루기 위해서는, 현재의 순수 트랜스포머 구조만으로는 충분치 않을 가능성이 높다는 점을 지적합니다.

공간 지능과 월드 모델에 대한 제3자 관점 해석

월드랩스의 Marble과 RTFM, 그리고 페이페이 리가 이야기하는 월드 모델 비전은 몇 가지 점에서 의미가 큽니다.

  1. 산업 적용 측면

  • 명시적 3D 출력을 선택한 것은 실용적인 결정입니다. 기존 3D 파이프라인(게임 엔진, VFX, CAD, 디지털 트윈)에 바로 얹을 수 있기 때문입니다.

  • 단일 H100에서 동작하는 추론 설계는 교육·엔터테인먼트·디자인·시뮬레이션 같은 실사용 영역으로의 확장을 염두에 둔 것으로 해석됩니다.

  1. 학술·기초 연구 측면

  • 암묵적 세계 표현과 명시적 3D 표현을 결합하는 방식은, 순수 텍스트·이미지 모델의 한계를 넘어 실제 공간 구조를 모델링하려는 시도로 볼 수 있습니다.

  • 다만 물리 법칙, 인과 구조, 고차원 개념(힘, 질량, 에너지 등)까지 자동으로 추상화하는 수준에는 아직 거리가 있습니다.

  1. 한계와 제약

  • 현재 단계의 동적 물리 표현은 통계 기반 패턴 재현에 가깝고, "법칙을 이해한 추론"보다는 "많이 본 장면의 재조합"에 가깝다는 제약이 예상됩니다.

  • 지속 학습, 온라인 업데이트, 장기적 메모리 구성은 아직 초기 단계이며, 실제 로봇·에이전트와 장기간 연결된 시스템으로 확장하는 데에는 상당한 엔지니어링·안전성 문제가 동반될 가능성이 높습니다.

  • 보편적 과업 함수에 대한 합의가 없기 때문에, 언어 영역의 다음 토큰 예측만큼 간결하고 강력한 학습 패턴을 확보하기까지 시간이 걸릴 가능성이 있습니다.

  1. 인사이트

  • 텍스트 중심 LLM 패러다임에서 한 단계 더 나아가려면, "세계를 모델링하는 AI"와 "세계를 설명하는 AI"를 결합하는 방향이 유력해 보입니다.

  • 월드 모델이 3D 환경·객체·상황을 다루고, 언어 모델이 이를 설명·계획·커뮤니케이션하는 구조를 상정하면, 공간 지능 + 언어 지능 조합이 다수의 고부가가치 작업을 담당할 수 있습니다.

  • 다만, 물리 법칙의 자동 발견, 과학적 창의성(예: 뉴턴 역학이나 상대성이론 수준의 이론 도출)의 영역은 현재의 통계적 학습 프레임워크에서 상당한 도약이 필요해 보이며, 새로운 아키텍처나 목적 함수가 병행되어야 할 가능성이 높습니다.

종합하면, 월드 모델과 공간 지능 연구는 "언어만 아는 AI"에서 "세계와 상호작용하는 AI"로 가기 위한 중간 다리에 가깝습니다.

현실적 제약이 예상되지만,

  • 명시적 3D 표현,

  • 멀티모달 입력,

  • 프레임 기반 예측,

  • 추론 효율 개선 이라는 네 축은 앞으로 5년 정도의 시간축에서 교육, 시뮬레이션, 로봇, 크리에이티브 도구에 영향을 줄 가능성이 큽니다.

향후 관전 포인트는

  • 얼마나 빠르게 동적 물리와 인과 추론이 통합되는지

  • 지속 학습이 실제 제품 수준에서 안정적으로 구현되는지

  • 트랜스포머 이후의 아키텍처가 공간 지능과 어떻게 결합되는지 일 것입니다.

이 흐름을 따라가면, 언어 모델 성능 비교 중심의 논의에서 벗어나 "세계 이해 능력"이라는 축으로 AI 발전을 추적하는 관점이 필요해 보입니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.