검색
Sign UpLogin

연구원들은 "데이터 벽"을 오를 사다리를 발견했을지도 모른다고 말합니다.

  • MIT 연구팀은 외부의 도움 없이 자체적으로 합성 훈련 데이터를 생성하고 스스로 개선할 수 있는 SEAL이라는 새로운 프레임워크를 소개했습니다.
  • SEAL은 두 단계를 거쳐 작동합니다. 첫째, 모델은 보상 학습을 통해 효과적인 "자기 수정"을 배우고, 둘째, 이 지침을 적용하여 기계 학습을 통해 자체 가중치를 업데이트합니다.
  • SEAL의 핵심 요소는 ReST^EM 알고리즘으로, 성능을 향상시키는 수정만을 유지하고 강화하는 필터 역할을 합니다. 이 알고리즘은 다양한 수정안을 수집하여 작동하는 것만 테스트한 뒤, 성공적인 변형만을 사용하여 모델을 훈련합니다.
  • 연구팀은 SEAL을 두 가지 시나리오로 테스트했습니다. 첫 번째에서는 텍스트 이해 작업에서 Qwen2.5-7B를 사용하여 논리적 추론을 생성하고, 자체 출력물을 훈련 데이터로 활용했습니다.
  • SEAL은 47%의 정확도를 기록했으며, 비교 방법의 33.5%보다 우수했습니다. 자체 생성 데이터의 품질은 기반 모델이 훨씬 작은데도 불구하고 OpenAI의 GPT-4.1을 능가했습니다.
  • 두 번째 테스트에서는 사고력 작업에서 Llama 3.2-1B를 Few-Shot Prompting을 사용하여 실행했습니다. 여기서 모델은 미리 준비된 도구에서 다양한 데이터 처리 기술과 훈련 매개변수를 선택했습니다.
  • SEAL은 72.5%의 성공률을 기록했으며, 사전 훈련 없이 단 20%의 성공률에 그친 경우를 능가했습니다.
  • "극단적 망각"은 SEAL이 직면한 주요 과제로, 새로운 작업을 받아들이는 과정에서 이전 작업의 성능이 감소하는 경향이 있습니다.
  • SEAL은 "데이터 벽"을 넘어서기 위한 단계로 간주되며, 모델이 스스로 새 자료를 흡수하며 자신을 가르치게 되면 희귀하거나 적게 표현된 주제에서 계속해 AI 성능을 향상시킬 수 있을 것입니다.
  • SEAL의 소스 코드는 GitHub에서 사용할 수 있습니다.

3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기