텐센트가 라벨이 없는 데이터셋으로도 LLMs를 훈련시킬 수 있는 R-Zero AI 프레임워크를 공개하다.
- 텐센트 AI 랩과 워싱턴 대학교의 연구진은 새로운 훈련 프레임워크 R-Zero를 개발, 인간이 레이블을 붙인 데이터 없이 LLM을 개선 가능케 함.
- R-Zero는 강화학습을 통해 스스로 훈련 데이터를 생성하며, AI 시스템이 자체 진화할 수 있도록 함.
- 두 독립 모델이 상호작용하여 공동 진화함으로써 논리 추론 능력 개선.
- 기업에는 전문화된 모델 개발 가속화 및 레이블 데이터 비용 절감 가능성 제공.
- 기존 방법들보다 R-Zero는 높은 성능 개선 및 모델 간 일반화 가능성 확인됨.
- 과정은 챌린저가 질문 생성, 솔버가 해결하는 방식으로 진행됨.
- 자기 생성 데이터의 정확성 유지가 장기적 문제로 남아 있음.
- 향후 연구 방향으로는 주관적 평가가 가능한 '검증자' AI 추가 제안.
3venturebeat.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.