상업적으로 사용이 가능한 OpenLLaMA - LLaMA를 새롭게 재현한 오픈소스

OpenLLaMA : LLaMA를 공개 버전으로 재현한 LLM.

LLaMA는 아니고 오픈소스 버전으로 다시 만든 LLM 이다. 현재 7B OpenLLaMA 모델을 공개했다. 이 모델은 2000억개의 토큰(200B)으로 트레이닝했다고 한다.

모델은 Together의 RedPajama 데이터셋을 활용해서 훈련했다고 한다. Together는 오픈 AI의 전직원들이 오픈소스 LLM을 만들기 위해 만든 단체이다. 예전에 OpenChatKit에서 소개한 적이 있다. RedPajama는 1.2조개의 토큰을 활용해서 만든 LLaMA의 훈련 데이터셋이다.

OpenLLaMA는 LLaMa의 방법을 그대로 재현하되 이 데이터셋을 사용해서 다시 만들었다고 한다.

기존 오리지널 LLaMA는 1조개의 토큰을 활용했고 GPT-J는 5000억개, OpenLLaMA는 2천억개의 토큰을 활용했다고 한다. 그런데 이들에 따르면 성능 평가를 했을 때 GPT-J나 오리지널 라마와 비슷한 성능이 나왔다고 한다. 참고로 gpt-3는 4100억개의 토큰으로 학습이 되었다.

JAX가 적용된 TPU-v4 여러개로 학습을 했다고 한다. EasyLM이라는 트레이닝 파이프라인을 활용했다고 한다. 버클리 AI 리서치의 Xinyang Geng 와 Hao Liu에 의해서 만들어졌다고 한다.

GitHub - openlm-research/open_llama