AI 연구는 LLM의 장기적인 추론 능력의 주요 요인을 밝혀냅니다.
- AI 연구는 LLM의 장기적 추론 능력의 주요 요인을 밝혀냄
- IN.AI, 칭화대학교, 카네기 멜론 대학교 연구팀이 체계적인 조사를 수행
- 지도형 미세 조정(SFT) 및 강화 학습(RL)을 사용하여 이 능력을 발전시키는 방법을 분석
- SFT는 훈련을 효율적으로 하지만 필수적이지 않다는 점을 발견
- RL 훈련 동안 컴퓨팅 파워가 많을수록 일반적으로 추론 능력이 향상됨
- 신뢰할 수 있는 보상 신호의 대규모 스케일링이 성공적인 RL 훈련의 핵심임
- 기본 모델은 이미 오류 수정 등의 핵심 능력을 포함하고 있으며 RL은 이러한 능력을 복잡한 과업에 적용할 때 많은 컴퓨팅 리소스가 필요함
- 모델 크기는 더 복잡한 추론 능력 개발의 주요 제한 요소임
- 연구팀은 앞으로 더 큰 기본 모델을 사용한 RL 테스트를 고려 중임
4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.