테스트-타임 강화학습(TTRL): 라벨 없이 LLM의 자가 진화와 성능 향상을 이끄는 혁신적 기술

최근 대규모 언어 모델(LLM) 분야에서 라벨링 되지 않은 데이터를 활용하여 모델 스스로 성능을 개선하고 진화하는 새로운 기술인 테스트-타임 강화학습(Test-Time Reinforcement Learning, TTRL)이 등장하여 주목받고 있습니다. 칭화대학교와 상하이 AI 연구소 연구진들이 개발한 이 TTRL 프레임워크는 기존 강화학습(RL) 기법들이 라벨링 된 데이터나 인간 피드백에 크게 의존했던 한계를 극복하고자 합니다. TTRL은 추론(inference) 단계에서 라벨 없는 테스트 데이터만을 사용하여 강화학습을 적용하며, 사전 훈련된 LLM의 내재적 지식(prior)을 활용하여 의사 보상(pseudo-reward)을 추정합니다.

핵심 아이디어는 여러 개의 모델 생성 응답에 대한 다수결 투표(majority voting)를 통해 합의된 답변을 '의사 라벨(pseudo-label)'로 간주하고, 이 의사 라벨과 일치하는 모델 응답에 긍정적인 보상을 부여하는 방식입니다. 이를 통해 TTRL은 테스트 시간 추론 과정을 적응형 자가 지도 학습(adaptive, self-supervised learning) 프로세스로 변환하여, LLM이 추가적인 지도 없이도 시간이 지남에 따라 스스로 성능을 향상시킬 수 있도록 합니다. 실험 결과, TTRL은 다양한 추론 작업과 모델에서 일관되게 성능 향상을 보였으며, 특히 Qwen-2.5-Math-7B 모델의 경우 AIME 2024 수학 벤치마크에서 라벨 없는 테스트 데이터만으로 pass@1 성능을 약 159% 향상시키는 놀라운 결과를 보여주었습니다. TTRL은 고비용의 인간 라벨링 필요성을 줄이고, 동적 환경에서 LLM의 지속적인 적응과 자가 진화를 가능하게 하는 확장 가능한 경로를 제시하며, 자율적이고 평생 학습하는 AI 시스템 개발의 중요한 진전을 이루었습니다.

기존 LLM 학습의 한계와 라벨링 데이터 의존성

대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 괄목할 만한 성능을 보여왔지만, 특히 복잡한 추론(reasoning) 능력을 향상시키기 위해서는 여전히 많은 과제를 안고 있습니다. 기존의 LLM 성능 향상 방법론은 주로 지도 학습(Supervised Learning) 파이프라인에 크게 의존해왔습니다. 특히, 모델 정렬(alignment) 및 지시 따르기(instruction-following) 성능을 개선하기 위해 널리 사용되는 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)과 같은 강화학습 프레임워크들은 인간의 피드백과 정답이 라벨링된 데이터셋에 대한 의존성이 매우 높습니다. 이러한 방식은 고품질의 라벨링된 데이터를 구축하는 데 막대한 비용과 시간이 소요된다는 근본적인 한계를 지닙니다.

LLM이 교육 환경부터 과학 연구 워크플로우에 이르기까지 점점 더 동적인(dynamic) 환경에 적용됨에 따라, 선별된 학습 데이터를 넘어서 일반화(generalize)할 수 있는 능력이 요구되고 있습니다. 하지만 기존 모델들은 학습 데이터와 분포가 다른 데이터(distribution shifts)나 새로운 유형의 추론 작업에 직면했을 때 종종 성능 저하를 보이는 성능 격차(performance gaps)를 나타냅니다. 즉, 학습 단계에서 보지 못했던 문제 유형이나 데이터 분포에 대해서는 취약한 모습을 보이는 것입니다.

이러한 문제를 완화하기 위해 테스트-타임 스케일링(Test-Time Scaling, TTS)이나 테스트-타임 훈련(Test-Time Training, TTT)과 같은 기법들이 제안되기도 했습니다. TTS는 추론 시점에 더 많은 계산 자원을 투입하여 모델 성능을 향상시키는 접근법이며, TTT는 테스트 데이터에 대해 모델을 추가적으로 미세 조정하는 방식입니다. 그러나 이러한 기법들, 특히 강화학습을 테스트 시점에 비지도적(unsupervised) 환경에서 적용하려 할 때 신뢰할 수 있는 보상 신호(reliable reward signals)의 부재라는 핵심적인 난관에 부딪힙니다. 추론 단계에서는 일반적으로 정답(ground-truth) 정보에 접근할 수 없기 때문에, 모델의 응답이 얼마나 좋은지를 평가하고 이를 바탕으로 모델을 강화할 보상 값을 추정하기가 매우 어렵습니다.

결론적으로, 기존 LLM 학습 방식의 라벨링 데이터 및 인간 피드백에 대한 과도한 의존성은 비용 문제뿐만 아니라 동적 환경에서의 적응성 및 일반화 능력 부족으로 이어집니다. 특히, 비지도 환경의 추론 단계에서 강화학습을 적용하기 위한 보상 신호 부재는 LLM이 스스로 학습하고 발전하는 데 큰 제약 조건으로 작용해 왔습니다. 이러한 배경 속에서 라벨 없는 데이터만으로 LLM의 자가 진화를 가능하게 하는 TTRL 기술의 등장은 기존의 한계를 극복하고 LLM 연구 및 응용의 새로운 지평을 열 가능성을 제시합니다.

테스트-타임 강화학습(TTRL)의 개념 및 작동 원리

기존 LLM 학습 방식의 한계를 극복하기 위해 칭화대학교와 상하이 AI 연구소 연구진들은 테스트-타임 강화학습(Test-Time Reinforcement Learning, TTRL)이라는 혁신적인 프레임워크를 제안했습니다. TTRL의 핵심은 추론(inference) 단계에서 라벨링 되지 않은 테스트 데이터만을 사용하여 강화학습을 적용한다는 점입니다. 이는 값비싼 인간 라벨링이나 사전 정의된 보상 함수 없이도 LLM이 스스로 학습하고 성능을 개선할 수 있는 길을 열어줍니다.

TTRL은 정답 정보가 없는 상황에서 보상을 추정해야 하는 근본적인 문제를 해결하기 위해 사전 훈련된 LLM의 내재된 지식(intrinsic priors)을 활용합니다. 구체적으로, 주어진 입력(query)에 대해 모델이 생성한 여러 개의 출력 샘플(sampled outputs)을 비교하고, 이들 사이의 다수결 투표(majority voting)를 통해 가장 빈번하게 등장하는 답변을 '의사 라벨(pseudo-label)'로 간주합니다. 즉, 모델 자신이 생성한 답변들 간의 합의(consensus)를 통해 정답에 가까울 것이라고 추정되는 기준점을 설정하는 것입니다.

TTRL Process[29]

TTRL Process

이렇게 생성된 의사 라벨을 기준으로, 모델이 생성한 개별 응답들이 이 의사 라벨과 일치하는지 여부에 따라 이진 보상(binary reward) (일치하면 1, 불일치하면 0)을 할당합니다. 예를 들어, 특정 질문에 대해 모델이 10개의 답변을 생성했고, 그 중 'A'라는 답변이 6번 나와 다수결 투표에 의해 의사 라벨로 선정되었다면, 'A'라고 답한 6개의 응답에는 보상 1이 주어지고 나머지 4개의 응답에는 보상 0이 주어집니다.

TTRL의 학습 과정은 다음과 같은 2단계 접근 방식으로 이루어집니다:

다수결 투표를 통한 라벨 추정 (Label Estimation via Majority Voting): 각 입력 프롬프트에 대해 모델은 여러 개의 출력(예: 64개 샘플)을 생성합니다. 이 출력들 중에서 가장 빈번하게 나타나는 예측값을 추정된 라벨(의사 라벨)로 선정합니다. 이 과정에서는 일반적으로 온도 조절 샘플링(temperature-controlled sampling, 예: temperature=1.0) 기법이 사용됩니다.
보상 할당 및 정책 최적화 (Reward Assignment and Policy Optimization): 추정된 의사 라벨을 기준으로 각 샘플링된 응답에 이진 보상을 할당합니다. 그런 다음, 이 보상 신호를 사용하여 Proximal Policy Optimization (PPO)나 GRPO와 같은 경사도 기반 강화학습 알고리즘을 통해 모델의 정책(policy)을 업데이트합니다. 이때, 계산 효율성을 위해 전체 샘플(예: 64개) 중 일부(예: 16개)만 학습 업데이트에 사용될 수 있습니다. 목표는 모델이 생성하는 응답이 다수결 투표 기반의 의사 라벨과 최대한 일치하도록 정책을 최적화하는 것입니다.

이러한 접근 방식은 단순성과 표준 강화학습 방법과의 호환성 측면에서 주목할 만합니다. 보상 함수가 근사치(approximate)임에도 불구하고, 여러 샘플에 걸쳐 집계될 때 충분한 학습 신호를 제공할 수 있다는 것이 실험적으로 입증되었습니다. 중요한 점은 이 모든 과정에서 어떠한 실제 정답 라벨도 사용되지 않는다는 것입니다. TTRL은 모델 자신의 생성물을 감독 신호의 대리(proxy)로 재사용함으로써, 테스트 시간 추론을 적응형 자가 지도 학습 프로세스로 효과적으로 변환하고, 이를 통해 LLM이 외부의 개입 없이 지속적으로 자가 진화(self-evolution)할 수 있도록 만듭니다.

TTRL Reward Mechanism[29]

TTRL Reward Mechanism

TTRL의 주요 성능 및 실험 결과

TTRL의 효과를 검증하기 위해 연구진들은 주로 수학적 추론(mathematical reasoning) 벤치마크 데이터셋에서 광범위한 실험을 수행했습니다. 사용된 벤치마크에는 AIME 2024, AMC, MATH-500 등이 포함되었으며, Qwen2.5-Math-7B, Qwen2.5-Math-1.5B, LLaMA-3 등 다양한 크기의 모델들을 대상으로 평가가 이루어졌습니다. 실험은 8개의 NVIDIA A100 40GB GPU 환경에서 진행되었습니다.

실험 결과는 TTRL이 라벨 없는 데이터만으로도 LLM의 성능을 극적으로 향상시킬 수 있음을 일관되게 보여주었습니다. 주요 결과는 다음과 같습니다:

Qwen2.5-Math-7B 모델 성능 향상:
- AIME 2024 벤치마크에서 pass@1 성능이 초기 16.7%에서 43.3%로 증가하여, 약 159.3%의 상대적 개선율을 보였습니다. 이는 어떠한 라벨링된 데이터도 사용하지 않고 달성한 성과입니다.
- AIME 2024, AMC, MATH-500 세 가지 벤치마크 전체에서 평균적으로 84.1%의 상대적 성능 향상을 기록했습니다.
소형 모델에서의 효과:
- 더 작은 모델인 Qwen2.5-Math-1.5B의 경우에도 MATH-500 벤치마크에서 성능이 33.0%에서 80.0%로 크게 향상되었습니다. 이는 TTRL이 모델 크기에 관계없이 효과적일 수 있음을 시사합니다.
다수결 투표 상한선 초과:
- 흥미롭게도 TTRL로 학습된 모델의 성능은 종종 TTRL 자체의 학습 신호인 다수결 투표 예측의 정확도(Maj@N metric, 이론적 상한선으로 간주될 수 있음)를 능가하는 경향을 보였습니다. 이는 TTRL이 단순히 다수 의견을 모방하는 것을 넘어, 노이즈가 있는 합의 신호로부터 더 풍부한 감독 정보를 추출하여 모델 스스로 더 나은 해답을 찾아가는 자기 강화 학습 루프(self-reinforcing learning loop)가 작동하고 있음을 시사합니다.
- 더 나아가, TTRL로 학습된 모델의 성능은 실제 정답 라벨을 사용하여 직접 학습한 모델의 성능에 근접하는 결과를 보이기도 했습니다.
일반화 및 전이 학습 능력:
- TTRL은 특정 벤치마크 데이터셋에 과적합(overfitting)되지 않고, 다른 분포의 데이터셋(out-of-distribution)에서도 성능 개선 효과를 유지하는 일반화 능력을 보여주었습니다. 예를 들어, 한 벤치마크에서 TTRL로 학습한 모델을 다른 벤치마크에서 평가했을 때도 성능 향상이 지속되었습니다. 이는 TTRL이 협소한 문제 해결 능력 향상을 넘어 더 넓은 범위의 추론 능력 향상에 기여함을 나타냅니다.
강화학습 알고리즘 호환성:
- TTRL은 PPO, GRPO 등 다양한 강화학습 알고리즘과 호환되며, 사용된 RL 알고리즘에 관계없이 일관된 성능 향상을 보였습니다.

아래 표는 TTRL의 주요 실험 결과를 요약한 것입니다 (이미지 기반 정보 재구성):

모델	벤치마크	초기 성능 (pass@1)	TTRL 적용 후 성능 (pass@1)	상대적 성능 향상률
Qwen2.5-Math-7B	AIME 2024	16.7%	43.3%	+159.3%
Qwen2.5-Math-7B	평균 (3개)	-	-	+84.1%
Qwen2.5-Math-1.5B	MATH-500	33.0%	80.0%	+142.4%

TTRL Performance Results[29]

TTRL Performance Results

이러한 강력한 실험 결과들은 TTRL이 지도 학습 신호 없이도 LLM의 성능을 효과적으로 개선할 수 있는 실용적이고 강력한 방법론임을 명확히 보여줍니다. 특히, 라벨 없는 데이터만을 활용하여 달성한 높은 성능 향상률과 일반화 능력은 TTRL의 잠재력을 잘 보여주는 증거입니다.

TTRL의 의의 및 향후 전망

테스트-타임 강화학습(TTRL)의 등장은 대규모 언어 모델(LLM)의 학습 및 적용 방식에 있어 중요한 패러다임 전환을 의미합니다. TTRL은 다음과 같은 측면에서 상당한 의의를 가집니다.

라벨링 데이터 의존성 탈피 및 비용 절감: TTRL은 모델 자신의 생성물을 감독 신호로 재활용함으로써 고비용의 인간 라벨링 및 데이터 구축 과정을 생략할 수 있게 합니다. 이는 LLM 개발 및 유지보수 비용을 크게 절감하고, 데이터 부족 문제를 겪는 특정 도메인에서의 LLM 적용 가능성을 높입니다.
지속적인 자가 학습 및 적응 능력: TTRL은 추론 단계에서 실시간으로 학습을 수행하므로, LLM이 변화하는 데이터 스트림이나 새로운 작업 환경에 지속적으로 적응하고 스스로 성능을 개선하는 자가 진화(self-evolving) 및 평생 학습(lifelong learning) 능력을 부여합니다. 이는 고객 지원 챗봇이나 과학 연구 보조 시스템처럼 실시간 적응이 중요한 응용 분야에서 큰 장점이 될 수 있습니다.
성능 향상 및 일반화: 실험 결과에서 확인되었듯이, TTRL은 라벨 없이도 기존 모델의 성능을 크게 향상시키고, 특정 데이터셋에 과적합되지 않으며 다양한 작업 및 도메인으로 일반화될 수 있는 잠재력을 보여주었습니다. 특히, 다수결 투표라는 비교적 단순한 휴리스틱을 넘어선 성능 개선은 주목할 만합니다.
확장성 및 호환성: TTRL 접근 방식은 모델 크기가 커짐에 따라 자연스럽게 확장되며(gains grow with model size), 다양한 강화학습 알고리즘과 호환됩니다. 이는 TTRL을 다양한 기존 LLM 및 RL 프레임워크에 비교적 용이하게 통합할 수 있음을 시사합니다.

이 연구는 주로 수학적 추론 작업에 초점을 맞추었지만, TTRL의 근간을 이루는 자가 추정 감독(self-estimated supervision), 테스트-타임 적응(test-time adaptation), 라벨 없는 강화학습(reinforcement learning without labels)이라는 아이디어는 다른 도메인으로 일반화될 가능성이 높습니다. LLM이 사전 훈련 데이터 분포를 벗어나는 작업을 점점 더 많이 접하게 되면서, TTRL과 같은 프레임워크는 이러한 도전에 대응할 수 있는 확장 가능한 경로를 제공합니다.

물론 TTRL은 아직 초기 단계의 기술이며, 다음과 같은 향후 연구 및 과제들이 남아 있습니다.

이론적 분석: TTRL의 이론적 수렴 특성(theoretical convergence properties)과 안정성에 대한 심층적인 분석이 필요합니다. 다수결 투표 기반의 의사 보상이 장기적으로 어떤 학습 동역학을 보이는지에 대한 이해가 요구됩니다.
다양한 작업 및 도메인 적용: 수학적 추론 외에 코드 생성, 요약, 번역, 대화 시스템 등 더 넓은 범위의 NLP 작업 및 도메인에서의 TTRL 효과 검증이 필요합니다.
보상 함수 개선: 다수결 투표 외에 더 정교하고 신뢰성 있는 의사 보상 추정 메커니즘 개발에 대한 연구가 필요합니다. 예를 들어, 모델의 불확실성(uncertainty)이나 일관성(consistency)을 보상 신호에 통합하는 방안을 고려해볼 수 있습니다.
상호작용 및 다중 에이전트 환경: 인간과의 상호작용이나 다중 에이전트 시스템과 같이 더욱 복잡하고 동적인 환경에서의 TTRL 적용 가능성 및 효과를 평가할 필요가 있습니다.
편향 문제: TTRL이 모델 내재적 편향(bias)을 증폭시킬 가능성은 없는지, 혹은 편향 완화(debiasing) 전략과 어떻게 결합될 수 있는지에 대한 연구가 필요합니다. 다수결 투표 방식 자체가 특정 편향된 응답을 강화할 수 있기 때문입니다.

결론적으로, TTRL은 LLM이 라벨링된 데이터 없이도 스스로 학습하고 발전할 수 있는 기술적으로 견고하고 계산적으로 효율적인 기반을 제공합니다. 이는 LLM 연구 및 개발의 방향을 자가 학습 및 적응형 시스템으로 이끄는 중요한 진전이며, 향후 더욱 지능적이고 자율적인 AI 시스템을 구축하는 데 핵심적인 역할을 할 것으로 기대됩니다.