
AI 대모 Fei-Fei Li가 말하는 월드 모델, 로봇, 일자리의 미래

AI는 어느 순간 갑자기 등장한 기술 같지만, 실제로는 70년에 가까운 연구의 결과입니다. 그 중심에 늘 조용히 있었던 사람이 바로 'AI의 대모'라 불리는 스탠퍼드 교수이자 월드랩스(World Labs) 공동 창업자, Fei-Fei Li입니다.
이 글에서는 AI 겨울 시기부터 이미지넷(ImageNet), 딥러닝, 대규모 언어 모델, 그리고 최근 화두인 월드 모델(world model) 과 로봇까지, Fei-Fei Li의 관점을 중심으로 정리합니다.
AGI 논쟁, 일자리 위협, 로봇의 한계처럼 자주 회자되는 주제를 한 번에 훑고, 마지막에는 현재 접근법이 가진 기술적·사회적 제약도 짚어봅니다.
1. AI 공포와 기대 사이: Fei-Fei Li가 보는 기술과 일자리
Fei-Fei Li는 AI 분야에서 가장 영향력 있는 인물 중 하나이지만, 종말론자와는 거리가 멉니다.
그는 스스로를 낙관론자이면서도 현실주의적인 인간 중심주의자라고 설명합니다. AI가 일자리와 사회에 영향을 주지 않을 것이라고 보지 않으며, 오히려 영향을 크게 줄 것이라고 인정합니다. 다만 그 영향의 방향은 기술 자체가 아니라 사람의 선택에 달려 있다고 강조합니다.
그가 즐겨 하는 말은 이렇습니다.
AI는 사람에게서 영감을 얻고
사람에 의해 만들어지며
결국 사람에게 영향을 준다는 점에서 '인공적'이라는 표현이 어울리지 않는다는 주장입니다.
Fei-Fei Li는 인류 문명을 길게 볼 때 기술은 전체적으로는 긍정적인 순효과를 가져온다고 봅니다. 수천 년 동안 인간은 도구를 만들고 개량하면서 삶의 질을 높여왔고, AI 역시 이 연속선상에 있다는 입장입니다.
하지만 동시에 모든 기술은 양면성을 갖고 있으며, 규범·법·교육·윤리 논의가 뒤따르지 않으면 얼마든지 심각한 부작용이 발생할 수 있다고 경고합니다. 개발자, 정책 입안자, 사용자 모두가 책임 있는 행위자로 행동해야 한다는 점을 거듭 강조합니다.
요약하면, 그는 "AI가 우리를 망칠 것인가?"가 아니라 "우리가 AI를 어떻게 다룰 것인가?"를 진짜 질문으로 봅니다.
2. AI 겨울에서 'AI 회사 전성시대'까지: 이미지넷이 바꾼 판
지금은 어느 회사든 AI를 내세우지 않으면 뒤처지는 분위기이지만, 불과 10년 전만 해도 상황은 정반대였습니다.
2015~2016년 무렵, 일부 빅테크 기업은 'AI'라는 단어 자체를 마케팅에서 피하려고 했습니다.
연구자들은 '머신러닝'이라는 말을 더 자주 썼고, 'AI'는 과장된 공약이나 실패한 약속의 상징처럼 여겨지는 경우도 많았습니다.
2017년 즈음이 돼서야 실리콘밸리에서 "AI 회사"라는 표현이 본격적으로 긍정적인 의미를 갖기 시작했습니다.
이 흐름을 근본적으로 바꾼 계기 중 하나가 바로 이미지넷(ImageNet) 입니다.
Fei-Fei Li는 2000년대 초, 박사 과정과 초기 교수 시절 내내 '시각 지능(visual intelligence)'에 집중했습니다. 인간은 강하게 시각 중심적인 종이며, 세상을 물체 단위로 인식하고 조작한다는 점에 주목했습니다.
그래서 연구의 북극성 문제를 '객체 인식(object recognition)'으로 잡았습니다. 하지만 당시 AI 모델에는 치명적인 문제가 하나 있었습니다.
다양한 수학적 모델(초기 신경망, 베이지안 네트워크 등)은 있었지만
이를 학습시킬 대규모 고품질 데이터가 거의 없었다는 점입니다.
이때 떠올린 통찰은 인간 성장과 진화의 방식입니다.
사람은 유년기 내내 엄청난 양의 경험 데이터를 쌓으며 학습합니다.
진화 역시 긴 시간 동안 환경과 상호작용하며 '대규모 데이터'를 기반으로 일어난 적응 과정이라고 볼 수 있습니다.
이 관찰에서 나온 결론이 바로 "AI에는 빅데이터가 필요하다"는 가설이었고, 그 결과 시작된 프로젝트가 이미지넷입니다.
2006~2007년경, 그는 학생들과 함께 당시 인터넷에 존재하는 방대한 이미지를 모아 약 1,500만 장의 이미지를 정제·라벨링하고, 약 22,000개 시각 개념의 분류 체계를 만들었습니다. 이때 언어학 연구에서 사용되는 WordNet 구조를 응용했습니다.
이 데이터셋을 연구 커뮤니티에 공개하고, 매년 ImageNet Challenge라는 국제 대회를 열면서 전 세계 연구자들이 성능 경쟁을 하도록 유도했습니다.
그리고 2012년, 토론토 대학의 제프리 힌턴 팀이
이미지넷 데이터
엔비디아의 GPU 2개
심층 신경망 모델을 조합해 객체 인식 정확도를 기존 대비 크게 끌어올리는 성과를 냈습니다.
이 조합이 바로 오늘날까지 이어지는 현대 딥러닝의 3요소입니다.
대규모 데이터
신경망 아키텍처
GPU 연산
ChatGPT 역시 이 세 축 위에서 동작합니다. 다만 텍스트 기반으로 인터넷 규모의 데이터, 훨씬 복잡한 모델 구조, 그리고 순서를 헤아리기 어려운 수의 GPU를 사용하는 형태로 확장되었을 뿐입니다.
3. AGI 논쟁보다 중요한 것: 아직 못하는 것에 집중하기
최근 몇 년 사이 AGI(범용 인공지능) 논쟁이 과열되면서 "언제 도달하나", "도달하면 어떤 일이 벌어지나" 같은 질문이 넘쳐납니다.
하지만 Fei-Fei Li는 AGI라는 말을 과학적 개념이라기보다 마케팅 용어에 가깝게 봅니다.
AGI를 경제 활동이 가능한 기계로 볼 것인지
인간 수준의 통찰을 가진 존재로 볼 것인지
초지능(superintelligence)을 뜻하는지 정의가 제각각이기 때문입니다.
그는 연구자로서의 관심이 "AGI냐 아니냐"가 아니라 "오늘의 AI가 어디까지 할 수 있고, 어디서 멈추는가"에 더 가깝다고 설명합니다.
예를 들어, 현재 모델들이 잘 못하는 영역은 매우 분명합니다.
짧은 동영상을 보여주고 "방 안에 의자가 몇 개 있나요?"라고 물으면 유치원생 수준의 과제도 제대로 풀지 못합니다.
과거의 물리학자처럼, 관측 데이터를 바탕으로 새로운 법칙을 스스로 도출하는 창의적 추상 능력은 전혀 구현되지 않았습니다.
상담, 교육, 동기 부여처럼 정서·맥락·관계를 함께 다뤄야 하는 소통도 인간 전문가와는 큰 격차가 있습니다.
Fei-Fei Li는 튜링이나 1950년대 1세대 AI 연구자들을 떠올리며, 그들이 물었던 질문과 지금의 AGI 논쟁 사이에 본질적인 차이가 없다고 봅니다.
그래서 초점은 "AGI 선언"이 아니라, 인간 수준의 다양한 지능 요소 중 어느 부분을 어떻게 메울 것인가로 옮겨져야 한다는 입장입니다.
4. 언어 모델만으로는 부족하다: 세계를 이해하는 '월드 모델'의 필요성
ChatGPT 이후 AI 하면 자연스럽게 텍스트 기반 대규모 언어 모델(LLM) 이 떠오릅니다. 하지만 인간의 지능은 언어만으로 구성되어 있지 않습니다.
Fei-Fei Li는 특히 공간·물체·상황을 이해하는 지능, 즉 공간 지능(spatial intelligence) 의 중요성을 강조합니다.
예를 들면, 재난 현장을 떠올려 볼 수 있습니다.
건물이 붕괴되고
연기가 자욱하며
구조팀이 분주하게 움직이는 상황에서
실제로 중요한 것은
어디에 사람이 갇혀 있는지
붕괴 위험이 있는 구조물이 어디 있는지
어느 경로로 이동해야 하는지처럼
언어로만 표현하기 어렵고, 몸과 눈으로 파악해야 하는 정보들입니다.
이때 필요한 것이 바로 월드 모델(world model) 입니다. Fei-Fei Li가 정의하는 월드 모델의 핵심은 다음과 비슷합니다.
텍스트나 이미지 같은 프롬프트를 입력하면
3차원 구조를 가진 세계를 생성하고
그 안에서 이동·조작·계획·추론이 가능하도록 표현해 주는 모델입니다.
이 모델의 출력은 단순한 2D 영상이 아니라,
로봇이 궤적을 계획할 수 있고
사람이 VR/AR로 들어가 걸어볼 수 있고
설계자가 카메라 뷰를 바꾸며 장면을 구성할 수 있는 '조작 가능한 공간 표현'에 가깝습니다.
그는 이런 세계 모델이
로봇에게는 행동의 기준 좌표계를 제공하고
인간에게는 설계·탐색·실험의 환경을 제공한다고 보고 있습니다.
언어 모델이 읽고 쓰는 지능에 해당한다면, 월드 모델은 보고 움직이는 지능의 기반에 가깝습니다.
5. 로봇에 '쓴맛'을 주는 두 가지 현실: 데이터와 물리 세계
AI 연구에서 자주 인용되는 개념 중 하나가 Richard Sutton의 '쓴 교훈(the bitter lesson)'입니다.
핵심 내용은 간단합니다.
복잡한 지식 기반 규칙보다
단순한 모델에 많은 데이터를 넣는 접근이 장기적으로는 더 잘 작동한다는 관찰입니다.
이미지넷과 딥러닝의 결합은 이 '쓴 교훈'을 입증한 대표 사례에 가깝습니다.
문제는 이 접근법을 로봇에 그대로 적용하려 할 때 발생합니다. Fei-Fei Li가 보기에, 로봇은 두 가지 측면에서 여전히 '쓴맛'을 줄 가능성이 큽니다.
데이터 정렬 문제
언어 모델은 텍스트 데이터로 학습하고 텍스트를 출력합니다. 입력과 출력의 형식이 거의 완벽하게 일치합니다.
반면 로봇에게 필요한 출력은 3D 공간에서의 연속적인 행동(action) 입니다.
웹에서 수집 가능한 대규모 데이터는 대부분 영상·이미지·텍스트이고, 이 안에는 로봇이 필요로 하는 정량적인 행동 레이블이 거의 없습니다.
그래서
텔레옵(사람이 로봇을 원격 조종하며 데이터를 쌓는 방식)
시뮬레이션에서 만든 합성 데이터
웹 비디오를 활용한 간접 학습 등 여러 보완책이 연구되고 있지만, 언어 모델처럼 깔끔하게 정렬된 '입력-출력 쌍'을 확보하기는 어렵습니다.
물리적 제약과 제품화의 난이도
언어 모델은 서버 안에서만 동작해도 실제 가치를 발휘할 수 있지만
로봇은 하드웨어, 센서, 모터, 배터리, 안전 기준, 규제 환경까지 모두 맞아야 합니다.
자율주행차를 예로 들면, 스탠퍼드가 DARPA 경진대회에서 사막을 130마일 완주한 것이 약 2005년, 이후 20년 가까이 기술·규제·인프라를 함께 맞추는 과정이 이어지고 있습니다.
자율주행차는 2D 도로 위를 달리며 "아무것도 건드리지 않는 것"이 목표인 비교적 단순한 로봇입니다. 일반 로봇은
3D 공간에서
다양한 물체를 실제로 잡고, 옮기고, 조작해야 합니다.
Fei-Fei Li는 딥러닝 덕분에 로봇의 '두뇌' 부분은 과거보다 훨씬 빠르게 발전할 수 있다고 보지만, 데이터와 물리 세계의 제약 때문에 언어 모델과 같은 속도의 폭발 성장은 기대하기 어렵다는 점을 냉정하게 짚습니다.
6. 언어 다음은 세계: 월드랩스와 'Marble'이 보여주는 가능성
이런 문제의식에서 출발해 Fei-Fei Li가 공동 창업한 회사가 월드랩스(World Labs) 입니다. 이름부터 세계(world) 에 초점이 맞춰져 있습니다.
공동 창업자들은 모두
컴퓨터 비전
컴퓨터 그래픽스
3D 표현 분야에서 저명한 연구자들로, 공간 지능을 위한 프런티어 모델을 만들겠다는 목표를 공유하고 있습니다.
이 회사가 최근 공개한 첫 제품이 Marble 입니다.
Marble의 특징은 다음과 같습니다.
텍스트나 이미지 프롬프트를 입력하면
걸어 다닐 수 있는 3D 세계가 생성되고
마우스·키보드·VR 기기를 통해 그 안을 자유롭게 탐색할 수 있습니다.
단순히 3D 영상을 렌더링하는 것이 아니라,
메시(mesh) 형태로 내보내
게임 엔진, 가상 제작 툴, 로봇 시뮬레이터 등에 직접 가져다 쓸 수 있는 자산을 생성합니다.
실제 활용 사례도 빠르게 나오고 있습니다.
소니와 협업한 가상 제작(Virtual Production) 팀은 Marble로 생성한 씬을 이용해 촬영을 진행했고, 제작 시간을 최대 40배 줄였다고 평가했습니다.
인디 게임 개발자는 Marble에서 만든 지형·환경을 가져와 별도 모델링 없이 프로토타입을 만들고 있습니다.
로봇 연구자는 다양한 환경을 시뮬레이션하기 위한 합성 데이터 생성 도구로 주목하고 있습니다.
심리학·정신의학 연구팀에서는 노출 치료, 공간 인지 실험을 위해 특정 조건의 가상 환경을 빠르게 만드는 용도로 문의하기도 했습니다.
흥미로운 점은, Marble에서 월드를 로딩할 때 먼저 점 구름(point cloud)에 가까운 형태로 구조가 보이고, 이후 질감과 디테일이 채워지는 연출을 의도적으로 넣었다는 부분입니다.
이 연출은 모델의 내부 표현을 그대로 보여주는 것이 아니라,
사용자가 "세계가 형성되는 과정"을 시각적으로 느끼도록 하기 위한
UX 설계 요소에 가깝습니다.
이야기해 보면, 많은 사용자가 이 점 구름 단계를 가장 인상적인 부분으로 꼽고 있고, 이는 공간 지능 기술을 "이해 가능한 형태로 보여주려는 시도"가 사용자 경험 측면에서도 의미가 있다는 신호로 볼 수 있습니다.
7. 심층 분석: 현재 접근법이 가진 한계와 향후 방향
Fei-Fei Li의 경로와 발언을 종합하면, 현재 AI와 로봇 연구는 몇 가지 구조적 제약 아래 움직이고 있습니다.
데이터 기반 접근의 구조적 편향
이미지넷과 LLM의 성공이 "데이터+단순 모델+대규모 연산" 조합을 강하게 정당화했습니다.
그 결과, 공간 지능·로봇처럼 데이터 수집과 정렬이 어려운 영역에서는 이 레시피를 그대로 적용하기가 매우 어렵습니다.
웹 텍스트·이미지와 달리, 세계와의 상호작용 로그는 수집도 비싸고, 개인정보·안전 이슈도 큽니다.
이 상황에서 월드 모델과 시뮬레이션 기반 접근은
실제 환경을 직접 수집하는 대신
가상의 세계를 대량으로 생성해 학습에 사용하는 우회로가 될 수 있습니다.
다만, 시뮬레이션이 아무리 사실적이라 해도
현실과의 도메인 갭(domain gap) 이 존재하며
이를 줄이기 위한 알고리즘·표현 방식 연구가 필요합니다.
모델 중심 담론과 시스템 차원의 공백
LLM 열풍 이후, 논의의 초점이 개별 모델 성능에 과도하게 집중되는 경향이 있습니다.
하지만 로봇·자율주행·산업용 시스템에서는 센서, 통신, 기계 설계, 안전 인증, 운영 프로세스 등 전체 시스템 관점이 필수입니다.
월드 모델 기술은
센서 데이터와 고수준 계획 사이를 연결하는 중간 표현 레이어로 기능할 수 있습니다.
다만 이 레이어가 실제 산업 시스템에 들어가려면
예측 가능성
디버깅 가능성
책임 소재 규명 가능성 이 확보돼야 하며, 이 부분은 아직 연구가 충분히 성숙하지 않았습니다.
인재·자본의 집중과 연구 지평의 협소화 위험
Fei-Fei Li가 언급했듯, 현재 AI 인재 경쟁은 매우 치열하고, 특정 소수 기업과 연구실에 인력과 자원이 과도하게 집중되는 양상이 나타나고 있습니다.
이 구조에서는 단기 성과가 뚜렷한 분야(예: LLM, 검색, 광고)에 자원이 더 빨리 몰리고, 장기적·기초적인 공간 지능·로봇 연구는 상대적으로 소외될 가능성이 있습니다.
월드랩스 같은 회사는 이 공백을 메우려는 시도로 볼 수 있지만,
산업 전체로 보면 위험 분산 차원에서 연구 포트폴리오를 다변화할 필요가 있습니다.
사회적·윤리적 대비의 속도 차
언어 모델은 주로 정보·콘텐츠 영역에서 영향을 미치는 반면,
로봇과 공간 지능은 물리적 안전, 노동 구조, 도시 설계까지 건드릴 수 있습니다.
그러나 현재 규제·표준·사회적 합의는 언어 모델 이슈에 비해 상대적으로 덜 준비된 상태입니다.
이 상황에서 세계 모델과 로봇 기술이 빠르게 상용화될 경우,
안전 사고
노동 갈등
공간 감시와 프라이버시 문제 등이 연속적으로 발생할 가능성이 있습니다.
Fei-Fei Li가 강조하는 "모든 개인이 책임 있는 행위자로 참여해야 한다"는 메시지는 바로 이 지점에서 현실적인 의미를 가집니다.
기술적 전망만 보면
월드 모델은 로봇 학습, 가상 제작, 게임, 시뮬레이션 과학 등에서 큰 잠재력을 가진 방향입니다. 하지만
데이터 수집 구조
산업 시스템 통합
자원 배분
사회적 제도 설계
이 네 측면에서 동시에 진전이 있어야만 실제 사회에 안정적으로 녹아들 수 있습니다. 이 네 축이 서로 다른 속도로 움직일 경우, 기술적 가능성에 비해 현실 적용은 예상보다 훨씬 느려지거나, 반대로 부작용이 먼저 드러날 가능성이 큽니다.
마무리하면, Fei-Fei Li의 경로는
데이터 중심 접근이 가진 힘과 한계,
언어 모델 이후의 지능 요소,
로봇과 세계 모델의 필요성과 제약을 동시에 보여줍니다.
AI를 바라볼 때
'AGI 도달 시점' 같은 추상적인 질문보다
지금 기술이 어디까지 왔고, 무엇을 아직 못하며, 어떤 데이터·표현·사회적 장치가 더 필요한지를 점검하는 쪽이 실질적인 전략 수립에 더 유용해 보입니다.
출처 및 참고 :
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
