환상적인 Pretraining Optimizers 및 그들을 찾을 수 있는 곳

  • 제목: "Fantastic Pretraining Optimizers and Where to Find Them"
  • AdamW는 언어 모델 사전 훈련에서 오랫동안 지배적인 옵티마이저였지만, 대안적인 옵티마이저가 1.4~2배의 속도를 제공한다는 주장이 많음.
  • 두 가지 방법론적 결함 때문에 공정한 비교가 어려웠으며, 실질적인 채택이 지연됨: (i) 불평등한 하이퍼파라미터 튜닝, (ii) 제한적이거나 오해의 소지가 있는 평가 설정.
  • 열 개의 딥 러닝 옵티마이저를 네 가지 모델 규모와 데이터 대 모델 비율에서 체계적으로 연구.
  • 공정하고 유익한 비교를 위해서는 철저한 하이퍼파라미터 튜닝과 다양한 모델 규모 및 데이터 대 모델 비율에서 훈련 종료 시 평가가 필요.
  • 한 옵티마이저에 대한 최적 하이퍼파라미터가 다른 옵티마이저에 하위 최적이 될 수 있음.
  • 많은 제안된 옵티마이저의 실제 속도 향상은 주장보다 낮고, 모델 크기가 커지면 감소하여 1.2B 파라미터 모델에서는 1.1배로 줄어듬.
  • 목표 훈련 예산에 도달하기 전에 중간 체크포인트 비교는 학습률 감소로 인해 훈련 중에 두 옵티마이저 간 랭킹이 변경될 수 있으므로 오해의 소지가 있음.
  • 가장 빠른 옵티마이저인 Muon과 Soap은 행렬을 사전 조건화기로 사용하여, 스칼라가 아니라 행렬과 그래디언트를 곱함.
  • 행렬 기반 옵티마이저의 속도 향상은 모델 규모에 반비례하며, 0.1B 파라미터 모델에서는 AdamW보다 1.4배, 1.2B 파라미터 모델에서는 1.1배로 감소함.
  • 코멘트: 108 페이지, 8개의 그림, 재현 가능한 실행 가능.
  • 주제: 기계 학습, 인공지능.
  • 인용: arXiv:2509.02046 [cs.LG]
  • 제출 날짜: 2025년 9월 2일.

3arxiv.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기