검색
검색
AI news 검색
Sign UpLogin

연구: "self-play를 통한 강화 학습"은 언어 모델에서 추론의 열쇠입니다.

  • MIT, 코넬대학교, 워싱턴대학교, Microsoft Research 연구팀이 "자기 놀이를 통한 강화 학습" (RLSP) 프레임워크를 개발
  • RLSP는 대형 언어 모델이 문제 해결에 더 많은 시간을 할애하도록 교육
  • RLSP는 세 단계로 구성됨: 인간 또는 AI 추론 예시 학습, 다양한 문제 해결 접근법 탐색 보상, 정확성 확인 및 지름길 방지
  • RLSP를 라마 모델과 Qwen2.5-32B-Instruct 모델에 적용했을 때 수학 데이터셋 점수가 각각 23%, 10% 향상
  • 주요 발견은 단순한 점수 향상이 아니라, 모델이 문제를 해결하는 방법을 배우는 방식
  • 구체적인 학습 예시 없이도 작은 탐색 보상으로 모델이 역추적, 다양한 해결책 탐색, 답안 재확인 등의 유용한 행동 개발
  • 연구팀은 "사고의 흐름" 추론이 모델의 문제 해결 능력을 향상시킨다고 믿음
  • 보상 시스템이 모델이 작업 과정을 표시하고 단계별 추론의 새로운 예를 생성하도록 권장
  • 미래 연구 질문: 문제 난이도에 따라 모델의 사고 시간을 어떻게 조정할 것인지, 순수 강화 학습이 더 큰 모델의 추론을 향상시킬 수 있는지, 고차원 사고 능력을 개발하는 추가 훈련 방법

5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기