Skip to main content
Views 58

생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.

인공지능, 이제 세상을 보는 걸 넘어 공간까지 이해할 수 있을까?

AI(인공지능)는 텍스트를 읽고 이미지를 분석하는 것에서 놀라운 발전을 이루었지만, 우리가 사는 ‘공간’을 실제로 이해하고 행동하는 데는 한계가 있습니다. 최근 스탠포드의 AI 연구자 Fei-Fei Li가 “AI의 다음 도약은 언어가 아닌 공간에서 온다”라고 주장하며, 실제 세계를 ‘이해하는 AI’를 만들기 위한 새로운 연구 흐름을 이끌고 있습니다. 이 글에서는 AI가 어떻게 공간을 이해해야 하는지, 그 필요성과 도전 과제, 그리고 실전 활용까지 핵심적으로 살펴봅니다.


AI는 왜 공간을 잘 이해하지 못하는가?

오늘날 AI의 주력인 대형 언어 모델(LLM)은 수많은 문장과 글을 분석하고 생성하는 데 탁월한 성과를 보입니다. 하지만, “이 컵을 여기에서 저기로 옮겨라”처럼, 실제 물체의 거리나 방향, 크기와 같은 물리적 정보는 거의 감을 잡지 못합니다. 이미지나 영상까지 처리하는 ‘멀티모달’ 모델도 있지만, 실제로 물리적 공간감각이나 운동 예측에는 약하죠.

최근 연구에 따르면 LLM은 텍스트 기반의 추론엔 강하지만, 물리적 상황 이해나 공간에서의 원인·결과를 추적하는 데는 ‘맹점’이 많습니다. 예를 들어 “공을 던지면 어디로 갈까?”라는 질문에 AI가 주로 실패하는 이유도 여기에 있습니다[4].


인간 지능의 뿌리, 공간 인식에서 시작된다

인간은 태생적으로 공간을 인식하고 활용하는 데 능합니다. 우리가 컵을 집을 때 크기와 무게를 감각적으로 파악하고, 자동차를 운전하거나 체육관에서 공을 받을 때도 주변 환경과 자신의 위치, 사물의 크기와 거리를 순식간에 이해하죠.

역사적으로도 위대한 발견들은 ‘공간 감각’에서 시작된 경우가 많습니다. 고대 그리스의 에라토스테네스는 두 도시의 그림자 차이를 이용해 지구의 둘레를 계산했고, DNA의 구조를 밝힌 왓슨과 크릭도 실제 물체를 돌리며 공간 모델링을 시도했습니다. 즉, 창의적 사고와 직접적인 물리 행동을 위한 공간 이해 능력은 인류 발전의 핵심 동력이었습니다.


텍스트 모델을 넘어, ‘세계 모델’의 시대가 온다

기존 LLM은 문장 단위로 언어를 예측하며 정보를 생성하지만, 이 방식은 공간이나 물리법칙을 명확히 반영하기 어렵습니다. 앞으로의 AI 발전은 ‘세계 모델’이란 개념에 집중합니다. 세계 모델은 단순히 언어를 생성하는 것이 아니라, 실제로 3차원 공간을 시뮬레이션하고, 물리적인 일관성을 유지하며, 사용자의 행동에 따라 실시간으로 환경을 변화시키는 역할을 담당해야 합니다.

세계 모델을 만들려면 AI가 텍스트뿐만 아니라 엄청난 양의 이미지, 영상, 3D 데이터까지 섭렵해야 하며, 토큰화 방식도 3D 또는 시간축을 포함한 4D로 확장되어야 합니다. 또, 복잡한 인과관계와 운동 예측까지 넓게 다루는 것이 과제입니다[2][5].


실제 공간 이해, 로봇·VR 등 산업 현장으로

AI의 공간 이해는 실생활에서 엄청난 효용을 만들 수 있습니다. 복잡한 구조의 공간에서 로봇이 정확히 움직이고 재난 현장 등에서 빠르게 3D 지도를 만들어 구조 활동에 나서는 것이 대표적인 예입니다. MIT 연구진은 구역별로 ‘소지도’를 만들고 이를 맞추어 거대한 실내 공간을 몇 초 만에 3D로 재구성하는 시스템을 개발하기도 했습니다[3].

이런 기술은 산업용 로봇, 창고 물류, 건축 설계, VR·AR 공간 내비게이션 등 다양한 첨단 현장에서 활용 가능합니다. 앞으로는 AI의 공간 이해력이 뒷받침될 때, 자율주행·스마트러닝·원격 의료·디자인 분야까지 혁신이 촉진될 전망입니다.


AI가 공간을 이해하려면 어떤 기술이 필요할까?

현재 대형 언어 모델들이 가진 공간적 맹점은, 데이터와 구조 모두에서 개선이 필요합니다. 텍스트 예측처럼 간단한 규칙 하나만 가지고는 복잡한 현실을 포괄할 수 없기 때문에, AI는 수많은 2D·3D 이미지, 동영상, 센서 데이터 등 ‘공간적 신호’를 충분히 학습해야 합니다.

또한 3차원 토큰화와 긴 ‘메모리’ 설계가 필요합니다. 객체의 위치, 크기, 움직임, 인접한 사물 사이의 관계 등 복잡한 정보를 실시간으로 기억하고, 물리법칙을 적용해 합리적인 ‘다음 행동’을 예측할 수 있어야 합니다. 최근에는 월드랩스(Fei-Fei Li의 스타트업)에서 ‘마블(Marble)’ 같은 시제품도 공개되어, 사용자의 프롬프트로 지속적인 3D 공간 생성이 실제로 구현되고 있습니다.


정리: AI, 공간을 이해하면 상상력이 현실이 된다

AI가 텍스트와 이미지 너머, 실제 세계의 공간을 제대로 이해하게 되는 순간, 인간의 창의력과 실용적 능력을 뛰어넘는 동반자로 거듭날 수 있습니다. 자동차에서 과학 실험, 창의적인 디자인에 이르기까지 공간 인식은 혁신의 출발점이었습니다. 이제 AI도 ‘세상을 진짜로 보는’ 능력에서 ‘공간을 이해하고 움직이는’ 단계로 진화하고 있습니다.

지금은 아직 도전의 연속이지만, 앞으로 공간 기반 AI가 우리 실생활과 산업 혁신에 어떤 멋진 변화를 가져올지 기대해 볼 만합니다. AI 개발자, 디자이너, 과학자, 창업가라면 지금부터 ‘AI의 공간 감각’에 주목하세요!


참고

[1] From Words to Worlds: Spatial Intelligence is AI’s Next Frontier - a16z Substack

[2] AI’s Progress Now Depends on ‘World Models’ That Grasp Physical Reality - Decrypt

[3] AI System Rapidly Generates 3D Map For Robot Rescue Missions - Tomorrow's World Today®

[4] NEWTON: Are Large Language Models Capable of Physical Reasoning? - dblp

[5] Large language model - Wikipedia

[6] The scientist who taught AI to see now wants it to understand space - THE DECODER

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.