## 유레카 (Eureka)

강화 학습의 보상 설계를 GPT-4와 같은 LLM을 활용해서 최적화할 수 있는 모델.

복잡한 물리적 작업도 학습이 가능하다. 홈페이지에서는 펜 돌리기를 예로 보여준다.

![](https://server.tilnote.io/images/pages/2e984f75-5ef3-4279-9fbb-2203488845d9.png)

인간 전문가가 보상 설정을 하는 것보다 83%의 상황에서 더 나았다고 한다.

또한 RLHF에 있어 새로운 접근법을 활용해 인간의 인풋과 결합해 더 나은 결과를 낼 수 있다고 한다.

로봇 학습 등에 활용할 수 있을 것으로 보인다.

RL(Reinforcement Learning)에는 NVIDIA의 Issac Gym 시뮬레이터를 활용했는데 이 시뮬레이터는 현실을 1000배 가속화하여 시뮬레이션할 수 있다고 한다. 

[Eureka | Human-Level Reward Design via Coding Large Language Models](https://eureka-research.github.io/)

<h2 id="유레카-Eureka">유레카 (Eureka)</h2>강화 학습의 보상 설계를 GPT-4와 같은 LLM을 활용해서 최적화할 수 있는 모델.복잡한 물리적 작업도 학습이 가능하다. 홈페이지에서는 펜 돌리기를 예로 보여준다.<img src="https://server.tilnote.io/images/pages/2e984f75-5ef3-4279-9fbb-2203488845d9.png" alt="유레카 - 인간 수준의 보상 설계 알고리즘 image 1">인간 전문가가 보상 설정을 하는 것보다 83%의 상황에서 더 나았다고 한다.또한 RLHF에 있어 새로운 접근법을 활용해 인간의 인풋과 결합해 더 나은 결과를 낼 수 있다고 한다.로봇 학습 등에 활용할 수 있을 것으로 보인다.RL(Reinforcement Learning)에는 NVIDIA의 Issac Gym 시뮬레이터를 활용했는데 이 시뮬레이터는 현실을 1000배 가속화하여 시뮬레이션할 수 있다고 한다.<a href="https://eureka-research.github.io/">Eureka | Human-Level Reward Design via Coding Large Language Models</a>

유레카 - 인간 수준의 보상 설계 알고리즘

유레카 (Eureka)

키워드만 입력하면 나만의 학습 노트가 완성돼요.