## StableVicuna : Stability AI에서 공개한 RLHF Chatbot

현재 LLM 모델의 성공에는 instruction finetuning 과 reinforcement learning through human feedback (RLHF)이라는 훈련 패러다임의 공이 컸다.

RLHF는 사람의 손이 필요하기 때문에 리소스가 많이 들어가는 작업이다. 그래서 최근 Open Assistant와 Anthropic, 그리고 스탠포드에서 RLHF 데이터셋을 공개하는 일을 했다.

이러한 데이터셋과 [trlX](https://github.com/CarperAI/trlx) (Transformer Reinforcement Learning X)에서 제공한 RLHF를 활용해서 스테빌리티 AI에서 내놓은 것이 스테이블비큐냐라고 한다.

![](https://server.tilnote.io/images/pages/868427bf-186d-4749-a802-6bfac30f3529.png)

LLaMA 13b 모델을 instruction finetuned한 모델을 사용한다고 한다.

[Stability AI releases StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot — Stability AI](https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot)

## 내 생각

RLHF가 리소스가 많이 들어가기 때문에 기업 레벨에서 다룰 수 있다고 생각했는데 이렇게 접근할 수 도 있구나... OpenAssistant, Anthropic, Stanford Human Preferences 등 다양한 데이터셋에 trlX의 RLHF 기술을 접목해서 만든 챗봇인것 같다. 물론 라이센스 제약은 LLaMa와 동일하다.

<h2 id="StableVicuna-Stability-AI에서-공개한-RLHF-Chatbot">StableVicuna : Stability AI에서 공개한 RLHF Chatbot</h2><p>현재 LLM 모델의 성공에는 instruction finetuning 과 reinforcement learning through human feedback (RLHF)이라는 훈련 패러다임의 공이 컸다.</p><p>RLHF는 사람의 손이 필요하기 때문에 리소스가 많이 들어가는 작업이다. 그래서 최근 Open Assistant와 Anthropic, 그리고 스탠포드에서 RLHF 데이터셋을 공개하는 일을 했다.</p><p>이러한 데이터셋과 <a href="https://github.com/CarperAI/trlx">trlX</a> (Transformer Reinforcement Learning X)에서 제공한 RLHF를 활용해서 스테빌리티 AI에서 내놓은 것이 스테이블비큐냐라고 한다.</p><p><img src="https://server.tilnote.io/images/pages/868427bf-186d-4749-a802-6bfac30f3529.png" alt="StableVicuna - Stability AI의 RLHF 챗봇 image 1"></p><p>LLaMA 13b 모델을 instruction finetuned한 모델을 사용한다고 한다.</p><p><a href="https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot">Stability AI releases StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot — Stability AI</a></p><h2 id="내-생각">내 생각</h2><p>RLHF가 리소스가 많이 들어가기 때문에 기업 레벨에서 다룰 수 있다고 생각했는데 이렇게 접근할 수 도 있구나... OpenAssistant, Anthropic, Stanford Human Preferences 등 다양한 데이터셋에 trlX의 RLHF 기술을 접목해서 만든 챗봇인것 같다. 물론 라이센스 제약은 LLaMa와 동일하다.</p>