메인 콘텐츠로 건너뛰기
page thumbnail

Google Titans와 MIRAS의 개념 및 관계

요약

개요

Google이 제안한 Titans와 MIRAS는 긴 문맥을 다루는 AI 모델의 "장기 기억" 문제를 해결하기 위해 함께 설계된 아키텍처와 이론적 프레임워크이다1. Transformers가 '어텐션'을 통해 뛰어난 성능을 보여 왔지만, 입력 길이가 길어질수록 계산 비용이 급격히 증가하는 한계가 있었고, 이를 보완하기 위해 RNN이나 상태공간모델(SSM)과 같은 다양한 시도가 이루어져 왔다1.

Generated Image

Titans는 이러한 흐름 속에서 "테스트 시점(test-time)에 스스로 기억을 확장·조정하는 모델 구조"를 제안하는 구체적 아키텍처이고, MIRAS는 Titans를 포함해 다양한 시퀀스 모델들을 하나의 관점에서 설명하고 설계 원리를 제공하는 이론적 청사진에 해당한다12. 두 개념은 각각 도구(architecture)와 설계도(blueprint)처럼 상호 보완적 관계를 이루며, 실시간 적응과 장기 기억을 동시에 달성하려는 공통 목표를 지닌다1.

Transformers와 장기 기억 문제

Transformer 구조는 어텐션 메커니즘을 통해 과거 입력 전체를 한 번에 바라보며, 어떤 토큰이 중요한지 가중치를 주는 방식으로 시퀀스를 처리한다1. 이 방식은 기계번역, 문서 요약, 코드 생성 등 다양한 자연어 처리 과제에서 뛰어난 성능을 보여왔지만, 시퀀스 길이가 늘어나면 어텐션 계산량이 길이의 제곱에 비례해 증가하는 문제가 있다.

이 때문에 전체 논문, 책, 긴 로그, 게놈 데이터와 같이 "수십만~수백만 토큰 단위의 초장문"을 효율적으로 처리하는 데에는 Transformer만으로는 한계가 존재한다1. 이를 해결하기 위해선, 긴 과거 정보를 유지하면서도 계산량을 입력 길이에 비례하는 선형 수준으로 억제하는 새로운 형태의 메모리·학습 구조가 필요하다는 인식이 커졌다.

RNN·상태공간모델과 그 한계

연구 커뮤니티는 계산량이 시퀀스 길이에 선형으로 증가하는 효율적인 순환신경망(RNN)과 상태공간모델(SSM)을 적극적으로 탐색해 왔다1. Mamba-2와 같은 최신 SSM 계열 모델은 긴 시퀀스를 한 번에 모두 보지 않고, 과거 정보를 고정 크기의 상태 벡터에 요약해가며 처리함으로써 속도와 메모리 사용량에서 강점을 보여준다1.

그러나 이러한 방식은 "고정 크기 압축"이라는 구조적 한계를 가진다. 즉, 아무리 긴 시퀀스를 봐도 결국 일정 크기의 상태로 요약해야 하기 때문에, 매우 풍부하고 복잡한 장기 문맥을 온전히 보존하기 어렵다1. 중요한 정보가 요약 과정에서 손실되거나, 특정 세부 내용이 장기간 지나면 희미해지는 문제가 발생할 수 있어, 정확도 측면에서 Transformer 수준을 안정적으로 대체하기가 쉽지 않다.

Titans: 장기 기억을 위한 새로운 아키텍처

Titans는 이러한 문제의식에서 출발해, Transformer의 정확도와 RNN·SSM의 속도를 결합하려는 구체적 모델 아키텍처이다1. 핵심 아이디어는 "단기 기억(어텐션)과 장기 기억(딥 뉴럴 메모리)을 분리하면서도 긴밀히 연결하는 구조"를 갖추는 것이다. 인간의 뇌가 단기 기억과 장기 기억을 구분해 운용하는 것과 비슷한 비유가 사용된다1.

Titans에서 장기 기억 모듈은 단순한 벡터나 행렬이 아니라, 다층 퍼셉트론(MLP)으로 구현된 깊은 신경망 자체로 설계된다1. 이 덕분에 모델은 과거 정보를 단순히 압축 저장하는 것이 아니라, 구조화하고 일반화된 형태로 이해·요약할 수 있는 표현력을 갖게 된다. 즉, "메모를 쌓아두는 수준"이 아니라 "이야기의 흐름과 개념을 스스로 재구성하는 수준"의 기억이 가능하다는 점이 강조된다1.

Titans의 '놀라움(surprise)' 기반 메모리 업데이트

Titans의 또 다른 특징은 "놀라움(surprise metric)"에 기반한 선택적 메모리 업데이트 메커니즘이다1. 인간이 일상적인 일은 쉽게 잊고, 예상 밖 사건이나 강한 감정이 동반된 일을 더 오래 기억하는 심리학적 현상에서 착안한 개념이다. 모델 입장에서는, 현재 기억 상태가 예측한 것과 실제 새 입력 사이의 차이가 클수록 '놀라움'이 큰 상황으로 해석된다.

예를 들어, 현재 문맥이 이미 "동물 이야기를 하고 있다"고 강하게 예측하고 있을 때 "cat"이 등장하면, 이는 크게 놀라운 일이 아니므로 장기 기억에 굳이 새로 각인할 필요가 없다고 판단할 수 있다1. 반대로, 진지한 금융 보고서를 요약하던 중 갑자기 "바나나 껍질 사진"과 같은 이질적인 입력이 등장하면, 예측과 실제 사이의 차이가 매우 커지면서 놀라움이 크다고 판단되고, 장기 기억에 우선적으로 반영된다1.

Titans에서는 이 놀라움을 수학적으로 "그래디언트(오차 신호)의 크기"로 측정한다1. 놀라움이 클수록, 해당 입력이 기존 지식을 갱신하는 데 중요하다고 보고 장기 기억 모듈의 파라미터를 실제로 업데이트한다. 이 방식 덕분에 모델은 모든 토큰을 동일하게 기억하려 하지 않고, "예상 밖이면서 의미 있는 정보"에 집중해 메모리를 효율적으로 사용한다1.

모멘텀과 망각: Titans의 정교한 장기 기억 관리

Titans는 단순히 놀라움만 보는 것이 아니라, 모멘텀과 망각(weight decay)이라는 두 가지 추가 요소로 메모리 관리 전략을 정교하게 만든다1. 모멘텀은 "현재의 놀라움"뿐 아니라 "최근 문맥에서의 놀라움의 흐름"까지 고려하는 메커니즘이다. 한 번의 토큰만 보면 놀라움이 작아도, 그 직전에 큰 놀라움이 이어졌다면, 이후 관련된 정보들도 함께 장기 기억에 포함해 맥락을 온전히 보존하려는 효과가 있다1.

또한 Titans는 장기 기억의 용량이 유한하다는 현실을 반영해, 가중치 감소(weight decay)를 '망각 게이트'처럼 활용한다1. 시간이 지나고 더 이상 중요하지 않은 정보에 해당하는 파라미터는 점차 작아지도록 규제함으로써, 장기 기억이 과거의 사소한 세부사항으로 포화되는 것을 막는다. 이렇게 놀라움 기반 선택, 모멘텀, 망각이 결합되어, Titans는 "무엇을 기억하고 무엇을 버릴지"를 동적으로 조정할 수 있다1.

MIRAS: 시퀀스 모델을 보는 통합 이론

MIRAS는 Titans 개별 아키텍처를 넘어, 다양한 시퀀스 모델을 하나의 통합 관점에서 이해하고 설계하기 위한 이론적 프레임워크로 제안된다1. 이 관점에서 보면, Transformer, 최신 선형 RNN, SSM 등은 형태는 다르지만 모두 "복잡한 연상 기억(associative memory)을 구현하는 서로 다른 방식"에 불과하다1.

MIRAS는 시퀀스 모델을 네 가지 설계 요소로 정리해 설명한다. 첫째, 어떤 구조의 메모리를 쓸 것인가를 정하는 "메모리 아키텍처"(벡터, 행렬, MLP 등)이며, Titans의 장기 메모리처럼 깊은 신경망 형태도 하나의 선택지로 포함된다1. 둘째, 모델이 무엇을 우선시해 학습할지를 결정하는 "어텐션 편향(attentional bias)"이다. 셋째, 과거 기억을 얼마나 유지할지·버릴지를 조절하는 "보존 게이트(retention gate)"로, 여기에는 다양한 정규화(regularization) 기법이 망각 메커니즘으로 재해석되어 포함된다1. 넷째, 실제로 메모리를 업데이트하는 "메모리 알고리즘(optimization algorithm)"이 있다.

이 네 축을 기준으로 보면, 겉모습이 크게 다른 시퀀스 모델들도 "새 정보와 오래된 기억을 어떻게 결합하고, 무엇을 남기고 버리는지"라는 공통 문제를 서로 다른 수학적 방식으로 해결하고 있을 뿐이라는 점이 드러난다1. MIRAS는 이 공통 구조를 드러냄으로써, 새로운 모델 설계를 체계적으로 탐색할 수 있는 설계도를 제공한다.

MSE를 넘어서는 새로운 설계 공간

MIRAS가 강조하는 또 하나의 포인트는, 지금까지 성공적인 시퀀스 모델 대부분이 평균제곱오차(MSE)나 내적(dot-product)에 기반한 유클리드형 목적함수와 정규화를 사용해 왔다는 점이다1. 이는 구현과 분석이 상대적으로 단순하다는 장점이 있지만, 이상치(outlier)에 지나치게 민감해지거나, 표현력 측면에서 제한을 초래할 수 있다.

이에 비해 MIRAS는 최적화와 통계 이론에서 넓게 연구된 다양한 손실 함수와 정규화 기법을 "메모리 편향과 망각 메커니즘"으로 활용할 수 있는 일반적 틀을 제안한다1. 예를 들어 비유클리드 목적함수나 일반화된 노름(generalized norms), 확률 분포 제약 등을 통해, 더 안정적이고 강인한 장기 기억 시스템을 설계하는 것이 가능해진다. Titans는 이 설계 공간 안에서 하나의 구체적인 점을 차지하는 사례라 할 수 있으며, 동시에 MIRAS가 개척한 넓은 가능성을 검증하는 실험장이기도 하다1.

MIRAS 기반 모델: YAAD, MONETA, MEMORA

MIRAS의 설계 철학을 실제 모델로 구현한 예로, YAAD, MONETA, MEMORA라는 세 가지 어텐션 없는(attention-free) 변형 모델이 소개된다1. YAAD는 허버 손실(Huber loss)을 활용해 큰 오차에 덜 민감하도록 설계된 변형으로, 긴 문서에 소수의 오타·노이즈가 섞여 있어도 모델이 과도하게 반응하지 않도록 하는 것을 목표로 한다1. 즉, 현실 데이터의 잡음에 보다 강인한 시퀀스 모델을 지향한다.

MONETA는 일반화된 노름을 활용해, 모델이 어떤 정보를 주목하고 어떤 정보를 잊을지에 대해 보다 엄격하고 구조적인 규칙을 적용하는 방향을 탐구한다1. 이는 장기 기억의 안정성·성능을 동시에 개선할 수 있는지 실험하는 성격을 갖는다. MEMORA는 메모리 상태를 "엄격한 확률 지도(probability map)"처럼 행동하도록 강제함으로써, 매 업데이트 시 변화가 과도하게 튀지 않도록 제어하고, 매우 안정적인 기억 통합 과정을 확보하려는 모델이다1. 이 세 모델은 MIRAS가 단순한 이론이 아니라, 실제 아키텍처 설계에 직접적인 지침을 줄 수 있음을 보여준다.

Titans와 MIRAS의 관계

Titans와 MIRAS의 관계를 한마디로 정리하면, "Titans는 도구, MIRAS는 설계도"라고 할 수 있다1. Titans는 MIRAS에서 정의한 네 가지 설계 요소를 특정한 방식으로 구현한 구체적 시퀀스 모델이며, 특히 딥 뉴럴 메모리를 장기 기억으로 사용하고, 놀라움·모멘텀·망각을 결합한 메모리 업데이트 전략을 통해 실시간 적응과 장기 기억을 동시에 달성하는 사례이다1.

반대로 MIRAS는 Titans를 포함한 다양한 시퀀스 모델들을 한데 묶어 설명하는 상위 개념의 이론적 틀이다. MIRAS의 관점에서 보면, Titans는 특정 메모리 아키텍처(MLP 기반), 특정 편향(놀라움 중심), 특정 보존 게이트(가중치 감소 기반 망각), 특정 최적화 알고리즘을 선택한 하나의 점에 해당한다1. 따라서 향후 연구에서는 Titans의 설계 요소 중 일부를 바꿔 새로운 변형 모델을 만드는 것도 MIRAS가 제시하는 설계 공간 안에서 자연스럽게 해석될 수 있다.

이처럼 두 개념은 경쟁 관계가 아니라, 실전 아키텍처와 이론적 프레임워크라는 역할 분담을 통해 서로를 보완한다. Titans는 MIRAS의 아이디어가 실제 데이터·과제에서 높은 정확도와 긴 문맥 처리 능력으로 이어질 수 있음을 보여주는 실증 사례이고, MIRAS는 Titans를 포함한 후속 모델들의 설계 방향과 확장 가능성을 체계적으로 안내하는 지도 역할을 한다12.

실험 결과와 적용 가능성

Google 연구진은 Titans와 MIRAS 변형 모델(예: YAAD, MONETA, MEMORA)을 Transformer++, Mamba-2, Gated DeltaNet 등 최신 아키텍처들과 비교 실험했다1. C4, WikiText 같은 언어 모델링 데이터셋과 HellaSwag, PIQA 같은 제로샷 추론 과제에서 이들 모델은 전반적으로 더 낮은 퍼플렉시티와 높은 정확도를 보이며 경쟁력 있는 성능을 입증했다1. 또한 텍스트뿐 아니라 게놈(DNA) 모델링, 시계열 예측 등 다양한 도메인으로 확장해도 효과가 유지되는 것으로 보고된다1.

또한 '딥 메모리'의 중요성을 검증하기 위한 ablation 연구에서는, 메모리 모듈의 크기가 같더라도 신경망의 깊이가 깊을수록 장기 기억의 품질이 개선된다는 결과가 제시된다1. 이는 Titans가 선택한 "MLP 기반 장기 메모리" 설계가 단순한 아이디어가 아니라, 실제 성능 면에서 의미 있는 차이를 만든다는 점을 뒷받침한다. 이러한 결과는 향후 초장문 문서 이해, 대규모 로그 분석, 복잡한 과학 데이터(예: 유전체, 센서 시계열) 처리 등에서 Titans·MIRAS 계열 모델이 중요한 역할을 할 수 있음을 시사한다.

시사점과 향후 전망

Titans와 MIRAS는 "학습이 끝난 뒤에도 모델이 실행 중에 스스로 장기 기억을 확장하고 조정할 수 있는가"라는, 이른바 테스트 시점 메모리(test-time memorization) 문제에 대한 하나의 답을 제시한다1. 이는 매번 새 데이터를 반영할 때마다 전체 모델을 다시 학습하는 기존 패러다임에서 벗어나, 실행 중에 파라미터를 부분적으로 조정하며 지식을 쌓아 가는 실시간 적응형 AI로의 전환을 의미한다.

이러한 방향은 인간의 학습 방식과도 더 유사하며, 개인화된 비서, 장기간 상호작용하는 대화형 시스템, 지속적으로 변화하는 환경에서 의사결정을 내리는 에이전트 등 폭넓은 응용 분야에 중요한 기반을 제공할 수 있다. 앞으로는 MIRAS가 제시한 설계 공간을 더 넓게 탐색하는 새로운 아키텍처들이 등장하고, Titans류 모델이 실제 제품·서비스 수준에서 어떤 형태로 활용될지에 대한 연구와 논의도 본격화될 가능성이 크다12.

참고

1Titans + MIRAS: Helping AI have long-term memory - https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

2The latest research from Google - https://research.google/blog/