검색
검색
AI news 검색
회원가입로그인

사다리: 자기 개선 LLMs를 통한 재귀적 문제 분해

  • 제목: LADDER: Recursive Problem Decomposition을 통한 스스로 향상되는 대형 언어 모델
  • LADDER는 복잡한 문제를 점진적으로 더 간단한 변형으로 생성하고 해결함으로써 대형 언어 모델이 자체적으로 문제 해결 능력을 향상시킬 수 있게 하는 프레임워크입니다.
  • 이전 접근 방식은 큐레이션된 데이터셋 또는 인간의 피드백을 필요로 하는 반면, LADDER는 모델 자체의 능력을 활용해 더 쉬운 문제 변형을 생성합니다.
  • LADDER는 수학적 적분 문제에서 Llama 3.2 3B의 정확도를 1%에서 82%로 향상시켰으며, Qwen2.5 7B Deepseek-R1 Distilled 모델이 MIT 적분 대회 예선 시험에서 73%를 달성하도록 도왔습니다.
  • 또한 TTRL(Test-Time Reinforcement Learning)을 도입하여 시험 시점에 문제 변형에 대해 강화 학습을 수행합니다.
  • TTRL은 Qwen2.5 7B Deepseek-R1 Distilled 모델이 MIT 적분 대회 예선 시험에서 90%라는 최첨단 점수를 달성하게 하였으며, OpenAI o1의 성능을 능가했습니다.
  • 이 결과는 자체적인 전략적 학습이 아키텍처 확장이나 인간의 감독 없이도 상당한 능력 향상을 달성할 수 있음을 보여줍니다.

5arxiv.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기