Adept의 소형 LLM Persimmon 8B
요약
- Adept에서 Persimmon 8B를 오픈소스 모델로 공개
- Adept는 AI 에이전트를 만들고 있는 회사
- Persimmon 8B는 굉장히 작은 모델이며 GPU나 맥북에서도 잘 돌아감
- 파라미터는 100억개 미만, 컨텍스트 윈도우가 16K
- 다양한 성능 평가 결과를 보여줌
- Llama2 7B와 비슷한 모델과 비슷하거나 더 좋은 성능을 보임
Adept에서 Persimmon 8B를 오픈소스 모델로 공개했네요. Adept는 사용자의 컴퓨터에서 할 수 있는 일들을 수행할 수 있는 AI 에이전트를 만들고 있는 회사입니다. (제가 기대하고 있는 스타트업입니다.) 참고로 퍼시먼은 감나무라는 뜻입니다.
8B 모델은 굉장히 작은 모델인데요. 하나의 GPU나 요즘 사항의 맥북에서도 잘 돌아간다고 합니다. 심지어 모바일에서도 돌아갈 수 도 있다고 합니다.
파라미터는 100억개 미만이라고 합니다.
그리고 컨텍스트 윈도우가 16K라고 합니다.
성능 평가는 다음과 같네요.
Eval Task | MPT 7B Instruct 1-Shot | Llama 2 Base 7B 1-Shot | Persimmon-8B-Base 1-Shot | Persimmon-8B-FT 1-Shot |
---|---|---|---|---|
MMLU | 27.6 | 36.6 | 36.5 | 41.2 |
Winogrande | 49.1 | 51.1 | 51.4 | 54.6 |
Arc Easy | 32.5 | 53.7 | 48.1 | 64.0 |
Arc Challenge | 28.8 | 43.8 | 34.5 | 46.8 |
TriviaQA | 33.9 | 36.6 | 24.3 | 17.2 |
HumanEval | 12.8 | 0 / 12.2 | 18.9 | 20.7 |
Llama2의 비슷한 모델과 비슷하거나 좋은 성능을 보였다고 합니다.
사용자의 브라우저나 기기에서 돌아가면서 업무를 수행하는 에이전트에 활용될 것 같습니다. 그래서 작은 모델을 만든 것 같습니다,
공유하기
조회수 : 275