검색
검색
공개 노트 검색
회원가입로그인

유레카 - 인간 수준의 보상 설계 알고리즘

유레카 (Eureka)

강화 학습의 보상 설계를 GPT-4와 같은 LLM을 활용해서 최적화할 수 있는 모델.

복잡한 물리적 작업도 학습이 가능하다. 홈페이지에서는 펜 돌리기를 예로 보여준다.

유레카 - 인간 수준의 보상 설계 알고리즘 image 1

인간 전문가가 보상 설정을 하는 것보다 83%의 상황에서 더 나았다고 한다.

또한 RLHF에 있어 새로운 접근법을 활용해 인간의 인풋과 결합해 더 나은 결과를 낼 수 있다고 한다.

로봇 학습 등에 활용할 수 있을 것으로 보인다.

RL(Reinforcement Learning)에는 NVIDIA의 Issac Gym 시뮬레이터를 활용했는데 이 시뮬레이터는 현실을 1000배 가속화하여 시뮬레이션할 수 있다고 한다.

Eureka | Human-Level Reward Design via Coding Large Language Models

조회수 : 151
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기