검색
검색
AI news 검색
회원가입로그인

MIT의 perplexity 기반 데이터 가지치기는 큰 언어 모델이 더 적은 데이터로 더 빨리 학습할 수 있도록 도와줍니다.

  • 제목: "MIT의 혼란도 기반 데이터 가지치기 기술로 대형 언어 모델이 더 적은 데이터로 더 빨리 학습하게 한다"

  • MIT 연구진, "혼란도 기반 데이터 가지치기" 기술 개발

  • 이 기술은 작은 AI 모델이 훈련 데이터 세트 중 가장 유용한 부분만 선택하도록 함

  • 선택된 데이터를 사용해 더 큰 모델을 훈련

  • 이 방법으로 훈련된 언어 모델이 벤치마크에서 더 나은 성과를 보였고, 훈련 단계도 줄어듦

  • 혼란도(perplexity)는 모델이 특정 예시를 얼마나 "놀라워하는지"를 측정하는 값

  • 높은 혼란도 예시가 더 많은 정보를 담고 있어 훈련에 더 유용함

  • 연구진은 1억 2,500만 개의 파라미터를 가진 작은 모델을 사용해 30배 이상 큰 모델의 훈련 데이터를 감소시킴

  • 줄어든 데이터로 훈련된 대형 모델들이 전체 데이터를 사용한 기본 모델보다 성능이 우수

  • 한 실험에서는 30억 개 파라미터 모델의 정확도가 가지치기로 2% 이상 향상

  • 데이터 구성에 따라 다른 가지치기 접근법이 유리

  • 연구진은 데이터 감소를 AI 훈련의 표준 과정으로 만드는 것이 중요하다고 주장


4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기