chatgpt를 만들 때 사용된 RLHF 방식 - 챗GPT가 만들어진 원리
Reinforcement Leaning from Human Feedback (RLHF)
사람의 피드백에 의한 강화학습.
최초 훈련을 통해 Pretrained-model 이 나온다.
이 Pretrained LM에 사람이 선별한 적은 양의 데이터셋으로 파인튜닝한다.
파인튜닝 모델이 생성한 답변 후보에 인간이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model을 학습한다.
파인튜닝 모델 + 리워드 모델이 결합된 형태로 강화학습을 시킨다.
chatgpt는 gpt 3.5를 RLHF를 통해 파인튜닝한 모델인 것이다.
이를 통해 사람이 무엇을 선호하는지 학습한 것이 chatgpt이다.
참고
공유하기
조회수 : 1341