텐센트가 라벨이 없는 데이터셋으로도 LLMs를 훈련시킬 수 있는 R-Zero AI 프레임워크를 공개하다.

2025-08-28

텐센트 AI 랩과 워싱턴 대학교의 연구진은 새로운 훈련 프레임워크 R-Zero를 개발, 인간이 레이블을 붙인 데이터 없이 LLM을 개선 가능케 함.
R-Zero는 강화학습을 통해 스스로 훈련 데이터를 생성하며, AI 시스템이 자체 진화할 수 있도록 함.
두 독립 모델이 상호작용하여 공동 진화함으로써 논리 추론 능력 개선.
기업에는 전문화된 모델 개발 가속화 및 레이블 데이터 비용 절감 가능성 제공.
기존 방법들보다 R-Zero는 높은 성능 개선 및 모델 간 일반화 가능성 확인됨.
과정은 챌린저가 질문 생성, 솔버가 해결하는 방식으로 진행됨.
자기 생성 데이터의 정확성 유지가 장기적 문제로 남아 있음.
향후 연구 방향으로는 주관적 평가가 가능한 '검증자' AI 추가 제안.

3venturebeat.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.