집에서 70B 언어 모델 미세 조정

2024-03-08

Answer.AI가 FSDP와 QLoRA를 기반으로 하는 오픈 소스 시스템을 공개했습니다. 이 시스템을 사용하면 70b 모델을 24GB GPU 두 개로 훈련시킬 수 있습니다.
이 시스템은 Answer.AI, Tim Dettmers (U Washington), 그리고 Hugging Face의 Titus von Koeller과 Sourab Mangrulkar가 협력하여 만든 결과물입니다.
이 시스템은 게임용 GPU와 같은 저렴한 하드웨어를 사용하여 대용량 언어 모델을 훈련시킬 수 있는 방법을 찾는 것을 목표로 합니다.
QLoRA는 퀀타이제이션과 LoRA라는 두 가지 신경망의 중요한 발전을 결합한 것이며, 모델을 400% 가량 줄일 수 있습니다.
FSDP는 분산 데이터 병렬(Distributed Data Parallel)이라는 기존의 다중 GPU 효율적 훈련 방식을 사용하며, 모델을 여러 GPU에 분할하여 모든 GPU를 동시에 사용할 수 있게 합니다.
FSDP와 QLoRA를 결합하면, 24GB의 소비자 등급 카드 2개 이상으로 70b 모델을 효과적으로 훈련시킬 수 있습니다.
이 시스템을 사용하려면 두 개 이상의 GPU가 필요하며, 대여 서비스를 이용할 수도 있습니다.
이 프로젝트는 기존에 접근이 어려웠던 대용량 언어 모델 훈련을 더 많은 사람들이 이용할 수 있게 하려는 첫걸음입니다.

4answer.ai링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.