Code Llama를 파인튜닝 하여 높은 성능을 기록하고 있는 오픈소스 모델들

Phind34B

스타트업 Phind에서 코드 라마를 파인튜닝한 34B 모델을 내놓았다. Phind 34B Standard model과 Phind 34B Python 모델이다. 그런데 이게 HumanEval test에서 GPT-4 (2023년 3월 버전) 보다 높은 점수를 기록했다고 한다. GPT-4가 67%를 기록했는데 Phind 34B Standard model 이 67.6%, Phind 34B Python model 이 69.5%를 기록한 것이다.

파인드의 코드라마 34B 모델 데모 : Phind/Phind-CodeLlama-34B-v1 · Hugging Face

8만개의 프로그래밍 문제와 해결 세트로 파인튜닝됐다고 한다. A100-80GB 32대로 3시간이 걸렸다고 한다.

WizardCoder-34B

WizardLM에서 파인튜닝한 모델로 HumanEval에서 73.2%를 기록했다고 한다. 위저드LM 트위터 글

그런데 이들의 말에 따르면 GPT4가 2023년 8월 26일 기준으로 82%를 기록했다고 한다.

Code Llama를 파인튜닝 하여 높은 성능을 기록하고 있는 오픈소스 모델들 image 1

기준이 정확한 건지는 잘 모르겠지만 높은 성능을 기록한건 맞는거 같다.

위자드 코더 데모 : WizardCoder-Python-34B-V1.0

위자드LM이 뭐하는데인지 찾아봤더니 오픈소스 LLM을 evol-instruct 방식으로 파인튜닝 하는 곳인것 같다. 하나의 데이터를 6가지 종류로 변화하여 진화시키는 방법이라고 한다. 참고로 Alpaca는 self-instruct (GPT-3로 데이터셋을 자동 생성) 방식을 사용했다. (출처 : 챗봇 딥러닝 - WizardLM의 Evol-instruct로 직접 한글 데이터셋을 만든 모델)

나온지 몇 일 안됐는데 벌써 엄청 다양하게 등장하고 있다. 곧 서비스화 하는 사람들도 생길것 같다.