DeepMind, AI가 프롬프트를 최적화 하는 방법 발표

딥마인드의 연구진들이 LLM을 활용해서 프롬프트를 최적화하는 방법을 발표했습니다. Optimization by PROmpting (OPRO) 라고 불리웁니다.

연구 논문 : Large Language Models as Optimizers (arxiv)

풀고자 하는 최적화 문제를 자연어로 기술하고 이에 대한 해결책을 찾도록 LLM에게 반복적으로 요청하는 방법입니다. 새로운 솔루션은 문제의 설명과 이전에 찾아낸 해결책들에 기인합니다.

이를 메타 프롬프트라고 하는데, 메타 프롬프트는 업무의 설명(task description)을 자연어로 기술한 내용과 문제의 여러 가지 예시들, 프롬프트 지시사항, 해결책들이 들어갑니다.

최적화를 위해 LLM은 가능한 해결책들을 생각해 내고 이를 점수와 함께 메타 프롬프트에 첨부합니다. 그리고 다음 라운드에서 이 해결책들과 함께 더 좋은 해결책을 찾기까지 반복합니다.

이를 통해서 문제를 해결하는데 최적의 경로를 가지는 프롬프트를 찾는 것입니다.

예를 들어 let's think step bt step 이라는 프롬프트를 적용하면 LLM이 좋은 결과를 내는데 도움이 되는 것을 알고 계실 겁니다. 이 때 PaLM-2를 GSM8K 수학문제에 적용하면 다음과 같은 프롬프트들을 찾는 것을 보실 수 있으실 겁니다. "Let’s solve the problem.", "Let’s think carefully about the problem and solve it together", "Let’s break it down", "Let’s calculate our way to the solution" 그리고 최종적으로 다음과 같은 프롬프트가 가장 좋은 결과를 냈다는 것을 알 수 있습니다. "Let’s do the math,"

LLM 자체가 자신에게 가장 효과가 있는 뉘앙스를 찾을 수 있는 방법이 아닐까 싶습니다.

정리하자면 가장 좋은 프롬프트를 LLM이 찾는다입니다. GPT나 PaLM에도 적용이 가능하다고 했으니 LLM의 앞단에서 가장 좋은 경로를 찾는 역할을 하지 않을까 생각해 봅니다. 딥마인드라고 해서 강화학습을 사용하지 않을까 생각해 봤는데 그런 방법은 아닌것 같네요.

참고 : DeepMind discovers that AI large language models can optimize their own prompts