메인 콘텐츠로 건너뛰기

27백만 파라미터로 인간처럼 추론하는 초소형 AI, HRM의 비밀

요약

AI가 복잡한 퍼즐이나 미로 문제를 풀 때, 인간처럼 직관적이고 논리적인 추론을 할 수 있을까요? 최근 AI 분야를 뒤흔든 논문 하나가 이 질문에 새롭게 답했습니다. 사람은 패턴을 인식하고 추론을 수정하며 문제를 해결하지만, AI는 여전히 쉽지 않은 도전이었죠. 그런데 단 2천7백만 개의 파라미터만 가진 HRM(Hierarchical Reasoning Model)이 대형 언어 모델을 넘어서 상상을 초월하는 결과를 보여줬습니다. 왜 작은 모델이 큰 모델보다 더 똑똑하게 추론할 수 있었는지, 그 원리와 혁신적인 기술을 쉽게 풀어서 알려드릴게요.

최신 AI의 추론 능력, 왜 HRM이 놀라운가?

퍼즐이나 미로, 문자열 추론 등 추상적 사고가 필요한 문제는 기존 AI에게 만만치 않았습니다. 하지만 HRM은 단 1000개의 예시로 훈련되고도 ARC-AGI, 스트러글, 미로 문제 등에서 DeepSeek R1이나 OpenAI의 o3 같은 거대 모델을 제쳤죠. 상징적 탐색과 트리 기반 문제까지 척척 풀어내는 모습을 보면, "작다고 무시 못 할 실력"을 보여줍니다.

핵심 기술은 계층적 추론. 기존 모델의 가장 큰 한계는 크기가 커질수록 효율이 떨어진다는 것인데, HRM은 작으면서도 정말 '똑똑하게' 설계됐어요.

퍼즐을 푸는 AI, 어떻게 동작할까?

수도쿠를 예로 들면, 퍼즐을 숫자의 시퀀스로 바꿔 모델이 이해할 수 있도록 합니다. 빈 칸은 0으로 표시하고, 정답 또한 숫자 시퀀스로 표현하죠. 훈련은 입력 퍼즐과 정답 간의 차이를 줄여나가는 방향으로 진행돼요.

보통 트랜스포머를 여러 층 쌓으면 모델이 더 깊어집니다. 넓이(파라미터 수)만 늘리면 정확도가 오르지 않고, 깊이(층 수)를 늘리는 것이 실제 성능을 좌우합니다. 하지만 깊게 만들면 파라미터가 폭증하는 문제가 반드시 따라오죠.

체인 오브 쏘트부터 순환 신경망까지, 추론 혁신의 여정

더 깊은 추론을 위해 AI가 해결과정을 단계별로 자연어로 펼쳐내는 '체인 오브 쏘트(chain-of-thought)' 방법이 있습니다. 이 방식은 복잡한 문제를 여러 단계로 나눠 풀 수 있지만, 초반에 실수하면 연쇄적으로 결과가 무너집니다. 그리고 엄청난 계산과 대량의 데이터가 필요하다는 단점이 있어요.

이 혁신의 대안으로 '순환 신경망(recurrent network)'이 등장했습니다. 여기서 핵심은 동일한 계산 블록을 여러 번 반복해 깊이를 확보하면서도 파라미터를 늘리지 않는 것! 게다가 입력을 반복적으로 모델에 심어주는 'input injection' 기법 덕분에 문제의 맥락을 지속적으로 기억하게 하죠.

이런 반복이 지나치게 많아지면 성능이 오히려 떨어질 수도 있습니다. 최적의 반복 횟수가 성능을 좌우합니다.

HRM의 핵심, 계층적 순환 구조의 마법

HRM의 진짜 혁신은 '계층적 순환 구조'입니다. 간단히 말해, 빠르고 디테일한 사고를 담당하는 하위 블록(로우 레벨)이 여러 번 계산을 반복하는 동안, 더 충분히 추상적이고 느리지만 멀리 보는 상위 블록(하이 레벨)이 이를 관찰하고 전체적인 문맥을 관리합니다.

하위 블록에서 T번 계산이 지나면, 상위 블록이 상태를 갱신하면서 전체 맥락을 다시 잡아주죠. 고수준 모듈은 길게 기억하고 큰 그림을, 저수준 모듈은 즉각적이고 세밀한 계산을 담당하는 식입니다.

이 구조 덕분에 HRM은 깊이가 늘어나도 맥락을 잃지 않고, 여러 번 반복해도 성능이 안정적으로 유지됩니다. 결과적으로 모델은 수도쿠 같은 어려운 문제에서 거의 완벽한 정확도를 보여줍니다.

효율적인 학습과 추론: 메모리와 계산의 최적화

이렇게 복잡한 구조를 학습하려면 보통 엄청난 메모리와 계산이 필요합니다. 그런데 HRM은 상태가 안정(수렴)된 상황에서 마지막 한 번만 역전파(backpropagation)로 학습하기 때문에, 메모리 사용량이 크게 줄죠.

또한 AI에게 여러 번 판단 기회를 주는 대신, 각 세그먼트가 끝날 때마다 "더 반복할까, 멈출까?"를 스스로 판단합니다. 이런 방식은 문제마다 계산 자원을 알맞게 쓰는 효율을 만들어요. 각 세그먼트에선 과거의 계산 결과에 영향을 주지 않는 '딥 슈퍼비전(deep supervision)'으로 학습 부담을 줄였습니다.

HRM은 왜 미래 AI에 중요한가?

HRM은 범용 대형 언어 모델처럼 모든 작업을 다 잘하진 않습니다. 특정 추론 과제에 특화돼 있죠. 하지만 '작은 모델로 복잡한 추론을 효율적으로' 해결할 수 있다는 사실을 보여줬다는 점이 아주 인상적입니다. 학습 예시가 겨우 1000개에 불과한데도 큰 성과를 내니, 앞으로 AI가 인간 수준의 추론력을 가질 가능성도 충분히 엿볼 수 있겠죠.

마지막으로, 추론 능력이 필요한 프로젝트나 서비스라면 꼭 HRM 같은 모델의 구조적 혁신을 살펴보세요. 큰 모델에만 의존하지 않고, 똑똑한 구조 설계로 새로운 가능성을 찾을 수 있다는 점, 기억해두면 좋겠습니다.

원문 :