7백만 파라미터로 최상위 AI 추론모델 성능 달성: TRM 논문 핵심과 실제 활용법

최근 7백만 파라미터의 초소형 모델이 이런저런 대형 AI 모델들을 능가하는 추론 성능을 보여 주목을 받고 있습니다. 이 모델은 'TRM(Tiny Recursive Model, 작은 반복적 모델)'로, 초경량 구조임에도 불구하고 Gemini 2.5 Pro, Deepseek, 03 Mini 등 대형 프론티어 모델을 최상위 난이도 추론 벤치마크에서 앞섰습니다. 실제로 ARC AGI 1에서 45%, ARC AGI 2에서 8%라는 테스트 정확도를 달성하였는데, 이는 동급 대형 모델 대비 월등한 수준입니다.

기존 LLM의 한계와 TRM의 차별성

대부분의 대형 언어모델(LLM)은 오토리그레시브 방식(자동 다음 토큰 예측)을 사용합니다. 즉, 답안을 하나의 긴 문장처럼 예측하는데, 단 한 글자만 틀려도 전체 답이 무효가 될 위험이 크다는 점이 문제였습니다. 품질을 높이기 위해 'Chain of Thought'(생각의 흐름) 방식을 함께 써왔습니다. 이는 다양한 실마리를 단계별로 만들어내어, 마치 사람이 고민하는 과정처럼 사고력을 흉내 내는 기법입니다.

또 다른 방법인 'Pass at K'(다중 샘플 생성)도 많이 사용되었습니다. 여러 답을 만들어 놓고 그중 가장 잘 맞는 결과를 채택하는 방식인데, 이 역시 실제 '추론'이라기보다 많은 답안을 생성해서 운에 기댄다는 본질적 한계가 있습니다.

이런 한계를 극복하기 위해 TRM 논문에서는, 진짜로 '생각하고', '비판하고', 수정하며 답안을 계속 개선하는 반복적 추론 구조만으로도 높은 정확도를 달성할 수 있음을 시연했습니다.

TRM의 핵심 구조: 단순 반복이 만든 결과

TRM은 기존의 HRM(Hierarchical Reasoning Model)에서 영감을 얻었습니다. HRM은 서로 다른 속도의 두 신경망이 번갈아 추론하는 구조와 '깊은 감독(deep supervision)' 기법을 결합했으나, 실제 성능 개선에서 복잡한 두 계층 구조보다는 점진적 감독(중간결과를 계속 검토·갱신)의 역할이 훨씬 중요하게 작용한다는 사실을 밝혔습니다. TRM은 이를 더욱 단순화하여, 두 개의 메모리(현재 추론 값, 그 값을 찾아온 과정)를 계속 업데이트하면서 추론 깊이를 늘이는 방식만 남기고 나머지 복잡성을 제거했습니다.

특이하게도 모델의 '레이어'를 늘릴수록 오히려 일반화 성능이 떨어지는 현상이 발견되었으며, 2개 레이어가 최적임이 확인되었습니다. 이는 지금까지의 '모델이 클수록 좋다'는 관념과 상반된 부분입니다. 반복을 통해 '가상의 깊이'를 얻는 것이 실제 레이어 추가보다 더 나은 결과를 만들어낸다는 것입니다.

정확도와 비교 데이터

아래는 TRM의 실제 벤치마크 결과입니다.

Sudoku Extreme: 55%에서 87%로 급상승
Maze(어려움): 75%에서 85%로 개선
ARC AGI 1: 40%에서 45%로 상승
ARC AGI 2: 5%에서 8%로 확장

동급 최상위 모델과 비교했을 때, Gemini 2.5 Pro 등 유명 대형 모델은 ARC AGI 2에서 4.9%에 그쳤고, Deepseek 및 Claude도 전체적으로 낮은 성적을 기록했습니다. 단, Gro for Thinking처럼 수십억급 파라미터의 초거대 모델이 TRM보다 더 나은 성능을 보이긴 했지만, TRM이 0.01% 수준의 파라미터만 사용한다는 점을 감안하면 실질적 효율성은 매우 높습니다.

실제 적용과 활용 관점

TRM의 구조를 간단히 설명하면, 처음엔 한 번 답을 내보고, 그 결과를 자체적으로 평가·비판·수정하면서, 여러 번에 걸쳐 최적화해 가는 반복적 사고과정을 거칩니다. 예를 들어 스도쿠 퍼즐을 푼다고 할 때, 한 번 답을 내고 그 근거와 과정을 기록한 뒤, 틀린 부분을 확인하고 반복해 나가는 형태입니다. 이 과정을 몇 차례만 반복해도, 소형 네트워크로도 복잡한 추론 문제를 효과적으로 해결할 수 있다는 점이 장점입니다.

해당 논문에서는 7백만 파라미터 모델이 노트북이나 심지어 스마트폰에서도 쉽게 동작할 수 있을 만큼 가볍기에, 실제 개인 환경에서 고품질의 추론형 AI 앱을 구동할 수 있는 가능성을 보여줍니다.

한계와 고려할 점

TRM은 반복적 구조, 즉 'Recursion'의 힘이라는 새로운 확장성을 보여줍니다. 하지만 모델 자체가 작더라도, 추론 단계가 깊어질수록 실제 컴퓨팅 파워와 메모리 소모는 커지므로, 반복횟수와 자원 사용의 균형에 주의를 기울일 필요가 있습니다. GPU가 반복 데이터를 모두 저장하다가 '메모리 부족(out of memory)' 오류를 겪는 사례도 보고되었습니다.

또한, 이전 HRM 구조에서 흔히 언급되던 '생물학적 근거'나 복잡한 수학적 이론은 TRM에서는 불필요하다고 설명되며, 핵심은 구조적 단순함과 반복이 실제 성능을 만든다는 점입니다. 게다가 반복 구조로 얻는 '가상 레이어(virtual depth)'가 더 많은 실제 레이어를 쌓는 것보다 모델 일반화에 효과적이라는 결과는, 이후 모델 최적화 방향에도 중요한 시사점을 줍니다.

정리: TRM의 의미와 미래 가능성

TRM 논문 사례는 대형모델 경쟁에서 '파라미터 수'만 늘리던 기존 접근을 뒤집으며, 이제는 구조적 단순화와 반복적 사고(Recursion)라는 새로운 스케일링 법칙에 주목할 필요성을 강조합니다. 앞으로 여러분이 AI 앱이나 솔루션을 구상할 때, 복잡함 대신 반복적 개선 구조의 도입을 고민해 보는 것이 현실적인 선택지가 될 수 있습니다. 특히 개인 단말기에서 고품질 추론형 AI를 구현하고 싶다면, TRM 모델을 살펴볼 만합니다.

모델의 수치와 논문 원문은 공식 링크에서 직접 확인해 볼 수 있습니다. 새로운 추론 모델의 실제 결과와 구조, 적용 방법에 대한 탐구로 앞으로의 AI 개발 전략에 꼼꼼히 참고할 만한 자료입니다.

출처 및 참고 :