검색
검색
공개 노트 검색
회원가입로그인

chatgpt를 만들 때 사용된 RLHF 방식 - 챗GPT가 만들어진 원리

Reinforcement Leaning from Human Feedback (RLHF)

사람의 피드백에 의한 강화학습.

  1. 최초 훈련을 통해 Pretrained-model 이 나온다.

  2. 이 Pretrained LM에 사람이 선별한 적은 양의 데이터셋으로 파인튜닝한다.

  3. 파인튜닝 모델이 생성한 답변 후보에 인간이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model을 학습한다.

  4. 파인튜닝 모델 + 리워드 모델이 결합된 형태로 강화학습을 시킨다.

chatgpt는 gpt 3.5를 RLHF를 통해 파인튜닝한 모델인 것이다.

이를 통해 사람이 무엇을 선호하는지 학습한 것이 chatgpt이다.

참고

조회수 : 1183
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
T
Chat
페이지 기반 대답