메인 콘텐츠로 건너뛰기

루프드 언어 모델과 Ouro: CoT를 넘어서는 ‘잠재 추론’의 시대

대부분의 사람들은 요즘 LLM(대형 언어 모델)을 떠올리면 “생각을 글로 쓰는 모델”을 상상합니다. 단계별로 풀이를 적어 내려가는 체인 오브 소트(Chain-of-Thought, CoT)가 대표적이죠.

그런데 최근 흥미로운 연구 흐름이 하나 나타났습니다. 아예 모델 내부의 잠재 공간에서 반복적으로 계산을 돌리며, 학습 단계에서부터 ‘생각하는 회로’를 심어버리려는 시도입니다. 이 글의 주인공인 루프드 언어 모델(Looped Language Models, LoopLM), 그중에서도 재귀적 언어 모델 패밀리인 “Ouro”가 바로 그 예입니다.

이 글에서는 다음 내용을 다룹니다.

  • 루프드 언어 모델이란 무엇이고, 왜 지금 주목받는가

  • Ouro가 기존 LLM과 다른 세 가지 핵심 설계

  • 작은 파라미터로도 12B급 성능을 내는 비결

  • 체인 오브 소트(CoT)와 ‘잠재 추론’의 차이

  • MoR, RLM, CoT 연구 등 주변 생태계와 연결해 본 확장 가능성

LLM·에이전트·AI 제품을 다루는 분이라면, “다음 세대 모델은 어디로 가고 있나?”라는 감을 잡는 데 도움이 될 겁니다.


루프드 언어 모델이란? “한 번 읽고 끝”에서 “여러 번 곱씹는” LLM으로

지금까지의 대부분 LLM은 구조가 꽤 단순했습니다.
프롬프트를 입력하면, 한 번 위에서 아래로 통과시키면서 토큰을 계산하고, 거기서 바로 답을 뽑아 내죠.

물론 깊은 레이어가 있고, 주의(attention)도 복잡하지만, 큰 틀에서 보면 “한 번 통과하는 일방통행 네트워크”입니다.

루프드 언어 모델(LoopLM)은 여기에 다른 질문을 던집니다.

“모델이 토큰을 한 번 보고 끝낼 게 아니라,
같은 내부 회로를 여러 번 ‘돌려보면’ 더 잘 생각할 수 있지 않을까?”

그래서 LoopLM은 모델 내부의 잠재 표현(latent representation)을 재귀적으로 반복 처리합니다.
겉으로 보이는 토큰 시퀀스는 그대로지만, 내부에서 똑같은 레이어 스택을 여러 번 루프시키는 식입니다.

이 발상은 최근 여러 연구와 맞닿아 있습니다.

  • Mixture-of-Recursions(MoR): 공유 레이어 스택을 여러 번 재사용하면서, 토큰마다 서로 다른 “재귀 깊이”를 할당해 주는 구조입니다. 중요한 토큰에는 더 많은 생각을 배분하고, 사소한 토큰은 빨리 탈락시키죠.1

  • Recursive Language Models(RLM): MIT의 연구로, 긴 문서를 한 번에 집어넣는 대신, LLM이 스스로 문서를 나누고, 필요한 부분만 재귀적으로 다시 불러 읽게 하는 “추론 전략”입니다.2

MoR가 “모델 내부 구조를 재귀적으로 만드는 것”이라면, RLM은 “모델 바깥에서 LLM을 재귀적으로 호출하는 전략”에 가깝습니다.

Ouro는 이 중 모델 내부 루프(LoopLM)에 초점을 맞춥니다.
즉, 사전 학습(pretraining) 단계에서부터 ‘여러 번 곱씹어 생각하는 회로’를 아예 구조와 목적 함수 안에 녹여버린 모델 패밀리라고 볼 수 있습니다.


Ouro의 세 가지 핵심: 잠재 루프·엔트로피 정규화·7.7조 토큰 확장

Ouro 연구에서 특히 흥미로운 지점은 세 가지입니다.

1. 잠재 공간에서의 반복 계산: “생각은 안 보이게, 결과만 꺼내기”

체인 오브 소트(CoT)는 모델이 생각 과정을 텍스트로 외부에 드러내는 방식입니다.
반면 Ouro는 잠재 공간에서만 반복 계산을 수행합니다.

겉으로는 답만 뽑아내지만, 그 뒤에선 이런 일이 벌어집니다.

  1. 입력을 인코딩해 잠재 벡터로 만든다.

  2. 이 잠재 벡터를 공유된 레이어 블록에 여러 번 통과시킨다. (루프)

  3. 반복을 거치면서 점점 더 정제된 표현으로 “생각을 다듬고”, 마지막에 디코딩해서 답을 낸다.

즉, 사고의 대부분이 ‘보이지 않는 곳’에서 일어나는 구조입니다.
이 점에서 Ouro는 “말이 많은 모델”이 아니라, “속으로 곱씹고 최종 답만 꺼내놓는 모델”에 가깝습니다.

재미있는 점은, 이렇게 해도 사람이 강제로 “생각을 써봐”라고 시키면, 내부에서 돌아가던 구조 덕분에 더 일관된 추론 흔적을 텍스트로도 내놓을 수 있다는 것입니다.
연구 결과에 따르면, 이 잠재 루프 구조는 CoT에서 흔히 지적되던 ‘그럴듯하지만 실제 내부 계산과는 다른 설명’ 문제를 완화하는 데 도움이 될 수 있음을 시사합니다.34

2. 엔트로피 정규화로 “토큰별 학습 깊이” 자동 배분

루프를 여러 번 돌릴 수 있게 만들면, 또 한 가지 문제가 생깁니다.

“얼마나 많이 돌려야 하지?
모든 토큰을 똑같이 5번, 10번 돌릴 수도 없고…”

Ouro는 여기서 엔트로피 정규화(entropy-regularized objective)를 사용합니다.
뭐냐 하면, 간단히 말해 각 토큰에 할당되는 재귀 깊이(=생각 횟수)를 확률적으로 결정하고, 그 분포에 규제를 거는 방식입니다.

  • 정보량이 많고 중요한 토큰에는 자연스럽게 더 많은 계산(깊은 재귀)이 배정되고

  • 단순하거나 반복적인 토큰은 적은 계산 후 빨리 “퇴장”하는 식입니다.

MoR 연구에서도 비슷한 패턴이 관찰됩니다.
토큰별로 다른 재귀 깊이를 부여해 보면, 핵심 개념이나 숫자, 논리적 전환점이 되는 토큰일수록 더 많은 재귀 스텝을 할당받는 경향이 나타납니다.1

즉, Ouro 역시 “토큰 단위의 적응적 계산(adaptive computation)”을 추구하면서도, 엔트로피 정규화로 안정적으로 그 분포를 학습하도록 설계된 셈입니다.

3. 7.7조 토큰 확대: 작은 모델로 12B급 성능을 찍다

Ouro 패밀리는 7.7조(7.7T) 토큰 규모까지 사전학습을 확장했습니다.
중요한 건 단순히 토큰 수가 아니라, 같은 학습 비슷한 비용에서 작은 모델로 큰 모델에 맞먹는 성능을 낸다는 점입니다.

  • Ouro 1.4B, 2.6B 모델이 여러 벤치마크에서 12B급 최신 LLM과 비슷한 성능을 달성했다고 보고됩니다.

  • 그리고 이 성능 차이는 주로 “더 많은 지식”이 아니라 “지식을 어떻게 조작하고 재조합하느냐”에서 나온다고 분석합니다.

MoR 논문에서도 비슷한 이야기입니다.
동일한 FLOPs(연산량) 기준으로 비교했을 때, 재귀 구조를 잘 설계하면

  • 파라미터 수는 더 적고

  • 검증 퍼플렉시티는 더 낮고

  • few-shot 정확도는 더 높은
    새로운 파레토 프론티어를 만들 수 있다는 결과가 나옵니다.1

Ouro는 이런 흐름 위에서, “추론은 깊게, 모델은 작게”라는 방향성을 상징적으로 보여주는 사례라고 볼 수 있습니다.


CoT vs 루프드 언어 모델: 겉말 vs 속생각

이제 많은 분들이 이렇게 궁금해 할 겁니다.

“그럼 CoT가 필요 없다는 얘기인가?
그냥 LoopLM만 잘 만들면 되는 거야?”

여기서 중요한 건 CoT와 LoopLM의 역할이 다르다는 점입니다.

CoT는 “설명 인터페이스”, LoopLM은 “내부 추론 엔진”

CoT(Chain-of-Thought)는 본질적으로 사용자 인터페이스에 가깝습니다.
모델이 어떻게 생각했는지를 인간이 읽기 쉬운 언어로 풀어 쓰는 도구죠.

하지만 여러 연구에서 드러났듯, CoT가 실제 내부 계산을 정확히 반영하지 않는 경우가 많습니다.

  • “정답은 항상 A”처럼 위치 편향이 걸린 상황에서도, CoT는 그 편향을 숨긴 채 그럴듯한 논리를 적어 주기도 합니다.5

  • 이 때문에 “CoT는 설명이 아니라 사후 합리화(post-hoc rationalization)”라는 비판도 제기되었습니다.5

또 다른 연구에서는 이에 반박하며,
CoT가 완전히 거짓이라기보다는 “불완전한 요약(incomplete but often faithful)”에 가깝다고 주장합니다.6
즉, 힌트를 항상 언급하진 않아도, 충분히 긴 토큰 예산을 주거나 다른 관점의 메트릭으로 보면, 내부 추론과 꽤 잘 맞춰 설명하는 경우도 많다는 것이죠.6

반면, Ouro 같은 루프드 언어 모델은 애초에 내부 추론 과정을 강화하는 쪽에 초점을 맞춥니다.

  • CoT는 “생각 과정을 텍스트로 보여주는 기능”

  • LoopLM은 “생각이 잘 돌아가도록 회로를 재설계하는 구조”

둘은 대체 관계라기보다,
“좋은 엔진 + 잘 된 계기판”처럼 서로 보완적인 관계에 가깝습니다.

LoopLM이 제공하는 “더 정직한 추론 흔적”

Ouro 연구의 흥미로운 주장 중 하나는,

루프드 언어 모델의 추론 흔적은
체인 오브 소트보다 최종 결과와 더 잘 정렬(aligned)되어 있다.

는 점입니다.

이는 “잠재 루프가 CoT의 거짓말을 막아 준다”라기보다는,
모델이 실제로 여러 번 곱씹고 판단을 다듬은 결과가, 텍스트로 설명할 때도 더 일관된 패턴으로 드러난다는 의미에 가깝습니다.

추론·설명 신뢰성에 관심 있는 분이라면, 이 흐름은 다음과 같이 이어집니다.

  1. T3LLM 같은 프레임워크는, 작업자 LLM이 만든 CoT를 검토자 LLM이 검열·수정하도록 하여, “검증 가능한 도메인(예: 시계열 숫자)”에서는 CoT를 적극적으로 다듬습니다.7

  2. Shape of Thought류 연구는, CoT의 “정답 여부”보다 “분포와 구조”가 모델 학습에 더 중요할 수 있음을 보여 줍니다.3

  3. Ouro/LoopLM은 아예 CoT 없이도 내부에서 반복 계산을 돌리도록 설계하여, 최종 결과에 일치하는 “잠재 추론 구조”를 만들어 냅니다.

즉, CoT는 여전히 유용하지만, 그 CoT를 만들어 내는 엔진 자체를 더 똑똑하게 만드는 방향으로 진화하고 있는 셈입니다.


MoR·RLM·메타 프롬팅: 루프드 패러다임이 여는 확장 가능성

Ouro 하나만 따로 떼어 놓고 보면 “새로운 모델 아키텍처” 정도로 느껴질 수 있습니다.
하지만 최근 연구와 산업 흐름을 묶어 보면, “루프와 재귀”가 추론 시대의 공통 키워드로 떠오르고 있습니다.

1. MoR와 파라미터 효율: “큰 모델의 품질, 작은 모델의 비용”

Mixture-of-Recursions(MoR)는 Ouro와 매우 비슷한 철학을 공유합니다.1

  • 하나의 공유 레이어 스택을 여러 번 재귀적으로 사용해 파라미터를 절약하고

  • 토큰별로 다른 재귀 깊이를 배정해 중요한 토큰에만 더 많은 계산을 쓰게 합니다.

  • KV 캐시도 재귀 단위로 공유·선택적으로 저장해, 메모리와 프리필 지연을 줄이는 전략도 제안합니다.1

MoR 실험 결과를 보면,
135M~1.7B 파라미터 모델에서도 기존 베이스라인보다 더 낮은 퍼플렉시티와 더 빠른 추론 속도를 실현하는 것으로 나타납니다.1

Ouro 역시 “작은 모델로 12B급 성능”이라는 유사한 메시지를 던지죠.
두 연구를 함께 놓고 보면, “학습 FLOPs를 어떻게 분배하느냐에 따라, 파라미터 수 이상의 성능을 뽑아낼 수 있다”는 교훈을 줍니다.

2. Recursive Language Models: 컨텍스트 한계를 뚫는 재귀적 추론 전략

Ouro가 “모델 내부 루프”라면, MIT의 Recursive Language Models(RLMs)는 “모델 외부 루프”입니다.2

  • 긴 문서를 통째로 모델 컨텍스트에 넣지 않고

  • 프롬프트 전체를 외부 환경(예: Python REPL)에 변수로 저장해 둔 뒤

  • LLM이 코드를 작성해 이 긴 문자열을 조각내고, 필요한 부분을 재귀적으로 다시 자기 자신에게 던지는 구조죠.2

이 방식은, GPT-5 같은 초거대 모델도 물리적 컨텍스트 창을 훨씬 넘어서는(두 자릿수 배 이상) 길이의 입력을 처리하면서도

  • 품질은 그대로 유지하거나 개선하고

  • 비용은 비슷하거나 더 낮게 유지하는 결과를 보여 줍니다.2

LoopLM과 RLM을 함께 보면 이런 그림이 나옵니다.

  • LoopLM/Ouro: “한 번 읽은 내용을 더 잘 곱씹기 위한 내부 루프”

  • RLM: “전체 문제를 쪼개고, 필요한 부분만 다시 읽기 위한 외부 루프”

앞으로의 에이전트·툴 시스템은,
이 두 가지를 동시에 활용해 “잘 쪼개서 읽고, 읽은 건 깊게 생각하는” 형태로 진화할 가능성이 큽니다.

3. 메타 프롬팅·Adversarial Trinity: 루프를 이용해 ‘프롬프트’를 최적화하다

모델 구조와 추론 전략만 루프를 도입하는 게 아닙니다.
메타 프롬팅 프로토콜처럼, 아예 프롬프트 설계 자체를 루프에 태우는 연구도 등장했습니다.8

이 프로토콜은 세 가지 에이전트로 구성됩니다.8

  • Generator(생성자): 다양한 프롬프트 변형을 시도하며 탐색

  • Auditor(감사자): 결과를 평가하고 “텍스트 비평(textual gradient)”을 생성

  • Optimizer(최적화자): 비평을 바탕으로 프롬프트를 업데이트

이 셋이 재귀적인 폐루프를 이루며 프롬프트를 점점 더 성능 좋은 형태로 조정해 나갑니다.8

여기까지 보면, 루프와 재귀는 이제

  • 모델 내부 구조(LoopLM, MoR)

  • 추론 전략(RLM)

  • 프롬프트 최적화(메타 프롬팅)

세 층에서 동시에 활용되는 “공통 패턴”이라는 점이 보입니다.
Ouro는 이 퍼즐에서 “모델 설계”라는 조각을 담당하는 중요한 사례라고 볼 수 있습니다.


실무 관점에서의 시사점: 지금 무엇을 준비해야 할까?

LoopLM, Ouro, RLM, MoR, 메타 프롬팅…
연구 이름만 들어도 복잡해 보이지만, 현업에서 당장 생각해 볼 수 있는 포인트는 surprisingly 간단합니다.

  1. “토큰 수·파라미터 수” 대신 “추론 FLOPs 배분”을 고민해야 한다

    • 앞으로는 모델 크기보다, 입력마다 얼마나 깊게 생각하게 할지를 조절하는 설계가 중요해집니다.

    • 이미 많은 상용 API가 “추론 강화 모드”, “느리지만 정확한 모드” 같은 옵션을 제공하기 시작했죠. LoopLM류 아키텍처가 이 뒤를 받쳐 줄 가능성이 큽니다.

  2. CoT를 ‘진실의 로그’로 보지 말고, ‘디버깅 도구’로 활용하자

    • CoT는 여전히 성능 향상과 디버깅에 유용하지만,

    • 설명이 그럴듯하다고 해서 내부 추론이 정당하다고 가정하는 건 위험합니다.569

    • 가능하다면 반례·교란 입력·카운터팩추얼 테스트를 통해 CoT를 검증하는 루틴을 조직적으로 만드는 게 좋습니다.

  3. 긴 컨텍스트 문제는 “더 큰 창”보다 “더 똑똑한 루프”로 풀릴 가능성이 크다

    • 무작정 1M 토큰 컨텍스트를 늘려가는 것보다, RLM처럼 문제를 쪼개고 필요한 부분만 재귀적으로 보는 전략이 점점 보편화될 수 있습니다.25

    • 문서 요약, 리서치 에이전트, 코드베이스 분석 등 장문 태스크를 다루는 분이라면,
      앞으로 RLM 스타일 아키텍처를 지원하는 도구·플랫폼을 주의 깊게 볼 필요가 있습니다.

  4. 오픈 연구·모델을 최대한 활용하자

    • Ouro와 관련 LoopLM 연구는 모델 및 코드를 공개하고 있습니다.

    • MoR, RLM, 메타 프롬팅, CoT 신뢰성 연구들 역시 모두 오픈된 논문/코드 기반이라, 직접 실험해 보기 좋습니다.1235678

개인적으로는, 지금의 흐름을 “LLM 1.0: 말 잘하는 엔진”에서 “LLM 2.0: 생각을 설계한 엔진”으로 넘어가는 과도기로 보고 있습니다.

그 전환의 한 가운데에 있는 개념이 바로 루프드 언어 모델과 잠재 추론 확장(latent reasoning expansion)이고, Ouro는 그 가능성을 상징적으로 보여 주는 첫 세대 모델입니다.

앞으로 1~2년 사이에,
“이 모델은 파라미터는 작지만 루프 깊이를 조절해 추론을 확장합니다”
라는 설명을 훨씬 더 자주 보게 될 가능성이 높습니다.

지금부터 관련 개념과 연구 결과를 익혀 두면, 새로운 API나 아키텍처가 등장했을 때
“이게 왜 좋은지, 어디에 써야 하는지”
바로 감이 올 것입니다.


참고

1Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

2Recursive Language Models

3Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

4Chain-of-thought Reviewing and Correction for Time Series Question Answering

5Chain-of-thought is not explainability: Our Takeaways

6Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

7Chain-of-thought Reviewing and Correction for Time Series Question Answering

8The Meta-Prompting Protocol: Orchestrating LLMs via Adversarial Feedback Loops

9Recursive Language Models (RLMs): From MIT’s Blueprint to Prime Intellect’s RLMEnv for Long Horizon LLM Agents

#AI뉴스#인공지능

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.