검색
회원가입로그인

노트북에서 인간 피드백을 통한 강화 학습 (RLHF)

  • 이 저장소는 "Reinforcement Learning from Human Feedback (RLHF)"의 참조 구현을 제공합니다.
  • RLHF는 대형 언어 모델(LLM)을 사용자 의도에 더 맞게 정렬하는 방법입니다.
  • RLHF 과정은 "지도 학습 미세 조정(SFT)", "보상 모델 훈련", "근접 정책 최적화(PPO)를 통한 강화 학습"의 세 단계로 구성됩니다.
  • 적용 예시로, 사전 학습된 LLM을 사용하여 챗봇을 구축할 수 있습니다.
  • 구현은 사전 훈련된 GPT-2를 긍정적인 감정을 표현하는 문장만 생성하도록 최적화하는 것입니다.
  • 이를 위해 세 개의 노트북을 구현합니다: "1-SFT.ipynb", "2-RM Training.ipynb", "3-RLHF.ipynb".
  • 필요 요건으로는 Hugging Face의 액세스 토큰이 필요하며, 이를 환경 변수로 설정해야 합니다.
  • 노트북은 순차적으로 실행하며, 각 단계를 따르도록 안내합니다.

4github.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기