MIT의 perplexity 기반 데이터 가지치기는 큰 언어 모델이 더 적은 데이터로 더 빨리 학습할 수 있도록 도와줍니다.
-
제목: "MIT의 혼란도 기반 데이터 가지치기 기술로 대형 언어 모델이 더 적은 데이터로 더 빨리 학습하게 한다"
-
MIT 연구진, "혼란도 기반 데이터 가지치기" 기술 개발
-
이 기술은 작은 AI 모델이 훈련 데이터 세트 중 가장 유용한 부분만 선택하도록 함
-
선택된 데이터를 사용해 더 큰 모델을 훈련
-
이 방법으로 훈련된 언어 모델이 벤치마크에서 더 나은 성과를 보였고, 훈련 단계도 줄어듦
-
혼란도(perplexity)는 모델이 특정 예시를 얼마나 "놀라워하는지"를 측정하는 값
-
높은 혼란도 예시가 더 많은 정보를 담고 있어 훈련에 더 유용함
-
연구진은 1억 2,500만 개의 파라미터를 가진 작은 모델을 사용해 30배 이상 큰 모델의 훈련 데이터를 감소시킴
-
줄어든 데이터로 훈련된 대형 모델들이 전체 데이터를 사용한 기본 모델보다 성능이 우수
-
한 실험에서는 30억 개 파라미터 모델의 정확도가 가지치기로 2% 이상 향상
-
데이터 구성에 따라 다른 가지치기 접근법이 유리
-
연구진은 데이터 감소를 AI 훈련의 표준 과정으로 만드는 것이 중요하다고 주장
4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.