애플에서 오픈소스 LLM을 출시했습니다. OpenELM

OpenELM (An Efficient Language Model Family with Open-source Training and Inference Framework)

애플에서 오픈소스 모델을 출시했습니다. 모델 사이즈는 0.27B, 0.45B, 1.08B, 3.04B 입니다. 가장 큰 모델이 30억 파라미터로 작은 모델들이네요.

이 작은 모델로 사용자의 장치에서 생성형 AI를 제공하는 것을 목표로 하는 것을 알 수 있습니다.

논문

OpenELM: 효율적인 언어 모델 패밀리와 오픈소스 훈련 및 추론 프레임워크

OpenELM은 트랜스포머 모델의 각 레이어 내에서 매개변수를 효율적으로 할당하기 위해 레이어별 스케일링 전략을 사용하며, 이는 정확도를 향상시킵니다. 예를 들어, 약 10억 개의 매개변수 예산으로, OpenELM은 OLMo와 비교하여 2.36% 향상된 정확도를 보여주며, 사전 훈련 토큰도 2배 적게 필요로 합니다.

이전의 관행에서 벗어나 모델 가중치와 추론 코드만 제공하고, 비공개 데이터셋에서 사전 훈련을 하는 것과 달리, 우리의 공개에는 공개 데이터셋에서 언어 모델을 훈련하고 평가하기 위한 완벽한 프레임워크가 포함되어 있으며, 훈련 로그, 다수의 체크포인트 및 사전 훈련 구성도 포함됩니다. 또한, Apple 기기에서 추론 및 미세 조정을 위해 모델을 MLX 라이브러리로 변환하는 코드도 공개합니다. 이러한 종합적인 공개는 개방형 연구 커뮤니티를 강화하고 지원하는 데 목표를 두고 있으며, 미래의 개방형 연구 노력에 길을 닦는 데 기여합니다.

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

모델 가중치, 추론 코드, 트레이닝 및 평가 코드까지 모두 공개했네요.

깃허브 : GitHub - apple/corenet: CoreNet: A library for training deep neural networks

허깅 페이스 : apple/OpenELM · Hugging Face