검색
검색
공개 노트 검색
회원가입로그인

chatgpt를 만들 때 사용된 RLHF 방식 - 챗GPT가 만들어진 원리

Reinforcement Leaning from Human Feedback (RLHF)

사람의 피드백에 의한 강화학습.

  1. 최초 훈련을 통해 Pretrained-model 이 나온다.

  2. 이 Pretrained LM에 사람이 선별한 적은 양의 데이터셋으로 파인튜닝한다.

  3. 파인튜닝 모델이 생성한 답변 후보에 인간이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model을 학습한다.

  4. 파인튜닝 모델 + 리워드 모델이 결합된 형태로 강화학습을 시킨다.

chatgpt는 gpt 3.5를 RLHF를 통해 파인튜닝한 모델인 것이다.

이를 통해 사람이 무엇을 선호하는지 학습한 것이 chatgpt이다.

참고

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 1236
heart
T
페이지 기반 대답
AI Chat