메인 콘텐츠로 건너뛰기

LLM이 ‘세계 모델’이 되면 생기는 일들: AI 에이전트 훈련의 미래

자율 AI 에이전트, 요즘 정말 많이 들리지만 막상 “어떻게 훈련하냐”를 물으면 이야기가 복잡해집니다. 실제 세상에서 직접 부딪치며 배우게 하자니, 위험하고 느리고 비쌉니다. 그렇다고 텍스트만 읽혀서 똑똑해질 수 있을까요?

최근 흥미로운 연구가 하나 나왔습니다. 우리가 알고 있는 대형 언어 모델(LLM)을, 단순한 “텍스트 생성기”가 아니라 에이전트 훈련용 세계 모델(world model) 로 쓰자는 시도입니다1. 한마디로, LLM을 가상의 “세상 시뮬레이터”로 바꿔서 에이전트가 그 안에서 마음껏 경험을 쌓게 하겠다는 이야기죠.

이 글에서는 다음 내용을 차례대로 풀어봅니다.

  • 세계 모델이 무엇이고, 왜 AI 에이전트에게 중요한지

  • Llama, Qwen 같은 LLM이 실제로 세계 모델처럼 동작할 수 있는지

  • 이 방식이 자율 에이전트, 로봇, AGI 논의까지 어떻게 이어지는지

어려운 논문 이야기를 최대한 “게임”과 “시뮬레이션” 비유로 풀어볼게요.


LLM + 에이전트 = 왜 항상 ‘환경’에서 막히는가

자율 에이전트의 훈련 구조를 정말 단순하게 줄이면 세 줄입니다.

  1. 환경을 관찰한다.

  2. 행동을 선택해서 수행한다.

  3. 그 결과를 보고 더 잘 행동하도록 업데이트한다.

이건 전형적인 강화학습(RL) 루프입니다. 그런데 여기엔 치명적인 문제가 하나 있습니다. “환경”이 너무 비싸고, 느리고, 제한적이라는 점입니다.

예를 들어, 웹을 돌아다니며 상품을 찾아주는 쇼핑 에이전트를 만든다고 해보죠.

  • 진짜 쇼핑몰 사이트를 붙잡고 계속 실험하면

    • 트래픽 비용도 비용이지만,

    • 사이트 구조가 바뀔 때마다 훈련이 꼬이고,

    • 잘못된 주문, 스팸, 서비스 장애 같은 리스크도 있습니다.

로봇도 마찬가지입니다. 실제 로봇에게 수천 번 실험하게 하는 건, 장비 고장과 안전 문제로 현실적으로 불가능에 가깝습니다.

그래서 AI 업계는 “가짜지만, 충분히 그럴듯한 가상 환경”을 만드는 데 엄청난 돈을 쓰고 있습니다. 게임 엔진, 웹 시뮬레이터, 로봇 물리 시뮬레이션… 그런데 이걸 일일이 만들고 유지하는 것도 또 다른 지옥입니다.

여기서 나온 발상이 바로 세계 모델입니다.

  • 에이전트가 “컵을 집어 들어서 전자레인지에 넣어”라고 행동하면

  • 세계 모델은 “그 다음에 화면에 어떤 상태가 보이게 될지”를 예측합니다.

이렇게 예측만 잘해줘도, 에이전트는 진짜 환경 대신 이 모델 안에서 수십만 번 연습할 수 있습니다. 마치 사람이 상상 속에서 시나리오를 돌려보는 것처럼요.

그런데 이 세계 모델 역할을, 우리가 이미 가진 LLM이 해줄 수 있을까요?


LLM을 ‘다음 단어’ 대신 ‘다음 상태’를 맞히는 기계로 바꾸면?

일반적인 LLM은 “다음 단어 맞히기 머신”입니다. 긴 텍스트가 들어오면, 그 뒤에 나올 법한 토큰을 계속 예측해 문장을 완성합니다.

연구팀이 한 일은 아주 단순한 발상의 전환입니다1.

“다음 단어 말고,
에이전트가 행동한 다음 상태(state) 를 예측하게 하면 어떨까?”

그래서 프롬프트 형식을 아예 이렇게 바꿉니다.

  • 입력:

    • 지금까지의 관찰(observation)

    • 방금 취한 행동(action)

  • 출력:

    • 그 다음에 환경에서 관찰하게 될 상태(next observation)

즉, LLM에게 “문단을 이어 써봐”가 아니라
“에이전트가 이런 행동을 했는데, 환경이 어떻게 변했는지 말해봐”라고 묻는 셈입니다.

연구팀은 이를 다섯 가지 텍스트 기반 환경에서 시험했습니다1.

  • ALFWorld: “컵을 식히고, 커피 머신에 넣기” 같은 집안일 시뮬레이션

  • SciWorld: 실험실에서 과학 실험을 하는 환경

  • TextWorld: 텍스트 어드벤처, 퍼즐과 탐험이 섞인 게임

  • WebShop: 특정 조건에 맞는 상품을 찾아 사는 쇼핑 웹사이트 시뮬레이션

  • StableToolBench: API/툴을 쓰는 시나리오

이 환경들은 공통점이 있습니다.
눈에 보이는 화면 대신, 모든 것이 텍스트로 표현됩니다.

예를 들어, ALFWorld에서는 상태가 “You are in the kitchen. You see a fridge, a cup, a coffee machine…” 같은 문장이고, 행동은 “open fridge”, “take cup” 같은 텍스트 명령입니다. LLM이 다루기 딱 좋은 형태죠.


정밀 튜닝된 LLM, ‘99% 정확한 가상 세계’가 되다

실험 결과가 꽤 인상적입니다.

연구팀은 Qwen2.5-7B, Llama-3.1-8B 같은 비교적 작은 LLM을 선택해, 실제 환경에서 모은 상호작용 데이터를 가지고 다시 미세조정을 했습니다1. 즉, “이 행동을 했더니 다음 상태는 이렇게 바뀌더라”는 로그를 잔뜩 먹인 겁니다.

그랬더니:

  • 집안일 환경(ALFWorld)에서 99%가 넘는 상태 예측 정확도,

  • 과학 실험 환경(SciWorld)에서 약 98.6% 정확도,

  • 퍼즐/탐험 위주의 TextWorld에서도 약 70% 정확도를 기록했습니다1.

여기서 중요한 건 단순히 한두 번 맞힌 게 아니라,
긴 시퀀스 전체에 걸쳐 일관성이 유지됐다는 점입니다.

연구에서는 “일관성 비율(consistency ratio)”이라는 지표를 썼는데요1.

  • 에이전트가 실제 환경에서 세운 계획과

  • 세계 모델(LLM 시뮬레이터) 안에서 세운 계획이

  • 얼마나 비슷한 성공률을 보이는지 측정한 수치입니다.

구조가 잘 정의된 환경(ALFWorld, SciWorld)에서는 이 비율이 90% 이상으로,
“가상 세계에서 짠 계획이 실제 환경에서도 거의 그대로 먹힌다”는 뜻입니다.

반대로, 쇼핑 WebShop처럼 복잡하고 변화가 많은 환경에서는
일관성 비율이 평균 70% 수준으로 떨어지는 한계도 드러났습니다1.
하지만 실제 관찰 몇 개만 섞어줘도 일관성이 크게 올라가는 등,
처음 상태를 얼마나 잘 맞춰주느냐가 중요하다는 사실도 함께 확인됐습니다.

요약하면 이렇습니다.

  • LLM은 원래부터 어느 정도 “세상에 대한 감”을 가지고 있다.

  • 실제 상호작용 로그로 잘 튜닝해주면, 특정 도메인에서는
    “거의 오류 없이 돌아가는 가상 환경”으로 쓸 수 있다.


데이터와 모델 크기, 그리고 ‘환경 난이도’의 3박자

물론 마법은 아닙니다. 이 LLM 기반 세계 모델이 잘 작동하려면, 몇 가지 조건이 필요합니다1.

첫째, 충분한 상호작용 데이터가 있어야 합니다.

연구에 따르면:

  • 집안일·실험실처럼 규칙이 명확한 환경에서는
    약 2만 개 정도의 훈련 “트래젝터리(에피소드)”를 넘어서면 정확도가 포화됩니다.

  • 반대로 쇼핑 환경처럼 구조가 덜 정형화된 곳에서는
    7만 개에 이르기까지 데이터가 늘어날수록 계속 성능이 좋아졌습니다.

둘째, 모델 크기도 무시할 수 없습니다.

  • 약 1.5B 파라미터급 모델은 단순한 환경에는 충분하지만,

  • 웹 쇼핑 같은 복잡한 시나리오에서는 더 큰 모델이 필요했습니다1.

즉, 환경 복잡도에 따라 필요한 데이터 양과 모델 규모가 같이 스케일링됩니다.
더 현실적인, 더 복잡한 세상을 흉내 내려면

  • 더 많은 경험(trajectory)

  • 더 큰/똑똑한 LLM

이 둘이 함께 올라가야 한다는 뜻입니다.

이건 사실, LLM 일반의 “스케일링 법칙”과도 닮아 있습니다.
데이터, 파라미터 수, 연산량이 함께 커질 때 성능이 매끄럽게 올라가는 패턴 말이죠23.


왜 굳이 이렇게까지? ‘경험 기반 AI’와 AGI 논쟁까지

이 연구가 흥미로운 이유는, 단순히 “LLM이 환경도 조금 예측하더라” 수준이 아니라,
AI의 향후 방향을 둘러싼 큰 논쟁과 맞닿아 있기 때문입니다.

튜링 어워드 수상자 리처드 서튼은 최근 에세이에서 이런 취지의 말을 했습니다1.

지금의 AI는 대부분의 지식을 ‘개발 시점에 구워 넣고’
실제 경험으로부터는 거의 배우지 않는다.

그가 주장하는 “경험의 시대(era of experience)”의 핵심은,

  • 에이전트가 스스로 환경과 상호작용하며

  • 시행착오를 통해 계속해서 배우는 구조

입니다. 이때 세계 모델은, 인간의 “머릿속 시뮬레이터”에 해당하는 핵심 구성요소죠4.

지금 보고 있는 LLM 기반 세계 모델 연구는 바로 이 지점을 정면으로 치고 들어갑니다.

  • LLM이 이미 가지고 있는 상식·언어 이해 능력을 기반으로

  • 구체적인 환경의 동역학까지 학습해

  • 에이전트에게 무제한에 가까운 가상 경험을 제공할 수 있다는 가능성을 보여주니까요1.

여기에 최근 부상하는 개념들이 줄줄이 연결됩니다.

  • 세계 모델: 물리·공간·인과 구조를 이해하는 모델4

  • LLM 에이전트: 웹, 코드, API, 로봇을 다루는 자율 시스템5

  • LAM(Large Action Model): 언어가 아니라 “행동 시퀀스”를 직접 생성하는 모델6

그림을 단순하게 그리면 이렇습니다.

  1. LLM은 “생각하고 말하는 뇌”

  2. LAM은 “클릭·입력·API 호출을 실행하는 손”

  3. LLM 기반 세계 모델은 “머릿속 시뮬레이션 세계”

이 셋을 잘 엮으면,
“생각하고, 시뮬레이션으로 미리 시험해 보고, 실제로 행동까지 하는”
꽤 인간 비슷한 학습 루프를 설계할 수 있게 됩니다.

AGI(범용 인공지능)가 뭐냐를 두고 의견이 분분한 와중에도,
“세상을 이해하고 예측하며 행동을 계획하는 능력”이 핵심이라는 데는
많은 연구자들이 동의하고 있습니다4.
이번 연구는 LLM이 이 퍼즐의 세계 이해/예측 조각까지 일부 담당할 수 있음을 보여준 사례라고 볼 수 있습니다.


아직 남은 한계: ‘계속 배우는’ 뇌가 되기까지

그렇다고 해서 LLM을 세계 모델로 쓰면
당장 내일 완전 자율적인 AI가 탄생할 것처럼 이야기하는 건 과장입니다.

연구에서도 명확히 인정하는 한계가 있습니다1.

  1. 연속 학습(continual learning) 부족

    • 지금의 LLM은 한 번 크게 학습한 뒤,
      그 이후의 경험을 “조금씩 추가해서 배우는” 데 취약합니다.

    • 새로운 환경에서 계속 경험을 쌓으면서도,
      예전 지식을 잃지 않는 학습 방식이 아직 정립되지 않았습니다.

  2. 잊지 않는 학습(stable, non-forgetting) 문제

    • 새로운 도메인에 맞춰 미세조정을 시작하면
      이전에 잘하던 것들을 망각하는 “catastrophic forgetting”이 여전히 골칫거리입니다.

    • 다양한 환경에서 동시에 세계 모델 역할을 하려면,
      이런 망각 문제를 해결해야 합니다.

  3. 복잡한 물리·3D 세계로의 확장

    • 이번 연구의 환경은 모두 텍스트 기반입니다.

    • 현실의 로봇, 자율주행, 물류 최적화 등으로 옮겨가려면
      비전·센서·물리 엔진과 결합된 멀티모달 세계 모델이 필요합니다42.

  4. 안전·검증 문제

    • 세계 모델이 틀린 예측을 꾸준히 내놓으면
      에이전트는 “가짜 세계에서 잘하는데, 현실에선 사고치는” 존재가 됩니다.

    • 특히 고위험 도메인(금융, 의료, 국방 등)에서는
      시뮬레이션 정확도와 검증 방법에 대한 엄격한 기준이 필요합니다7.

요약하면, “가능성은 입증됐다.
이제는 스케일·안정성·안전성의 문제”입니다.


앞으로 무엇을 기대할 수 있을까: 실용적인 시사점

이제, 이 연구가 우리에게 던지는 실용적인 메시지를 정리해보겠습니다.

첫째, 에이전트 시스템을 만들고 싶다면, 환경 설계에 LLM을 적극 활용해볼 만합니다.
직접 웹 시뮬레이터를 짜는 대신, 텍스트 기반 상호작용 로그를 모아
도메인 특화 LLM 세계 모델을 튜닝하는 식이죠. 특히 다음 같은 경우에 유용합니다.

  • 고객 지원 시나리오(대화형 업무 플로우)

  • 내부 도구/백오피스 자동화(폼 입력, 버튼 클릭, API 호출)

  • 코드 리팩터링, 테스트 실행 같은 개발자 도구 환경

둘째, 데이터 로그 수집 전략이 더 중요해질 것입니다.
세계 모델의 성능은 “얼마나 다양한 시도와 결과를 기록했는지”에 크게 좌우됩니다.
단순 정답 데이터셋보다, 실패를 포함한 시도 전체가 중요합니다.

셋째, LLM을 쓸 때도 “한 번에 바로 실제 프로덕션에 붙이기”보다
시뮬레이션 환경에서 먼저 에이전트를 학습·검증하고 나가는 방식이 점점 표준이 될 가능성이 큽니다.
이미 강화학습 커뮤니티에서는 이런 방식을 수년간 써왔고7,
이제 LLM 기반 에이전트 세계에서도 비슷한 흐름이 빠르게 확산되는 중입니다52.

마지막으로, 우리가 흔히 LLM을 “말 잘하는 챗봇” 정도로만 보았다면,
이제 관점을 조금 바꿀 필요가 있습니다.

  • 텍스트를 이해하고 생성하는 능력은

  • 결국 “상황을 표현하고, 그 상황이 어떻게 변할지 상상하는 능력”과 맞닿아 있습니다.

이번 연구가 보여주듯이, 이 능력을 조금만 다른 방향으로 훈련하면
LLM은 에이전트가 살아갈 가상 세계의 법칙을 담당하는 엔진이 될 수 있습니다.

AI가 데이터를 넘어 “경험”의 시대로 간다면,
그 경험이 펼쳐질 첫 번째 무대는, 어쩌면 LLM이 만들어낸 텍스트 속 세계일지도 모릅니다.


참고

1LLMs could serve as world models for training AI agents, study finds

2The State Of LLMs 2025: Progress, Problems, and Predictions

3Tutorial on Large Language Model-Enhanced Reinforcement Learning for Wireless Networks

4Move Over LLMs, World Models Are the Next Big Thing in AI

5Large Language Model Agents: A Comprehensive Survey on Architectures, Capabilities, and Applications

6Large Action Models Explained: The Next Evolution Beyond LLMs for Autonomous AI Agents

7The Next Frontier in AI Isn’t Just More Data: Reinforcement Learning Environments

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.