## Reinforcement Leaning from Human Feedback (RLHF)

사람의 피드백에 의한 강화학습.

1. 최초 훈련을 통해 Pretrained-model 이 나온다.

2. 이 Pretrained LM에 사람이 선별한 적은 양의 데이터셋으로 파인튜닝한다.

3. 파인튜닝 모델이 생성한 답변 후보에 인간이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model을 학습한다.

4. 파인튜닝 모델 + 리워드 모델이 결합된 형태로 강화학습을 시킨다.

chatgpt는 gpt 3.5를 RLHF를 통해 파인튜닝한 모델인 것이다.

이를 통해 **사람이 무엇을 선호하는지 학습**한 것이 chatgpt이다.

참고 

* [챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF)](https://littlefoxdiary.tistory.com/111)

* [Introducing ChatGPT](https://openai.com/blog/chatgpt)

<h2 id="Reinforcement-Leaning-from-Human-Feedback-RLHF">Reinforcement Leaning from Human Feedback (RLHF)</h2>사람의 피드백에 의한 강화학습.<ol><li>최초 훈련을 통해 Pretrained-model 이 나온다.</li><li>이 Pretrained LM에 사람이 선별한 적은 양의 데이터셋으로 파인튜닝한다.</li><li>파인튜닝 모델이 생성한 답변 후보에 인간이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model을 학습한다.</li><li>파인튜닝 모델 + 리워드 모델이 결합된 형태로 강화학습을 시킨다.</li></ol>chatgpt는 gpt 3.5를 RLHF를 통해 파인튜닝한 모델인 것이다.이를 통해 사람이 무엇을 선호하는지 학습한 것이 chatgpt이다.참고<ul><li><a href="https://littlefoxdiary.tistory.com/111">챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF)</a></li><li><a href="https://openai.com/blog/chatgpt">Introducing ChatGPT</a></li></ul>

chatgpt를 만들 때 사용된 RLHF 방식 - 챗GPT가 만들어진 원리

Reinforcement Leaning from Human Feedback (RLHF)

키워드만 입력하면 나만의 학습 노트가 완성돼요.