다중 에이전트 훈련은 복잡한 과제에서 협조를 개선하는 것을 목표로 합니다.
-
연구자들이 여러 AI 에이전트를 동시에 훈련시키는 프레임워크를 소개하여, 각각의 에이전트가 특수한 역할을 맡도록 구성하였다. 이는 복잡하고 여러 단계로 이루어진 작업을 더 확실하게 처리하기 위해 더 명확한 업무 분담과 긴밀한 조정이 필요하다는 점에서 중요하다.
-
기존 AI 시스템은 일반적으로 단일 에이전트가 계획하고 실행하는 방식을 사용하지만, 긴 결정을 요구하는 복잡한 작업에서는 한계가 있다. 단일 에이전트가 고차원 계획과 실무적 도구 사용을 모두 잘 수행하기 어렵다.
-
새로 제안된 해결책은 구조적인 계층을 통해 하나의 에이전트가 프로젝트 매니저 역할을 수행하고, 특화된 하위 에이전트가 웹 검색이나 데이터 분석 같은 특정 도구를 다루도록 한다.
-
수직 계층 구조에서 메인 에이전트는 작업을 위임하고 하위 에이전트가 보고하는 방식이 효과적이다. 이는 10% 더 빠른 문제 해결을 가능하게 한다.
-
새로운 M-GRPO(멀티 에이전트 그룹 상대적 정책 최적화)는 메인 및 하위 에이전트를 역할을 구분하면서 함께 훈련시키는 방법으로 기존 GRPO를 확장한다.
-
프레임워크는 중앙 통제기를 통해 여러 서버에서 동기화된 교육을 가능하게 하여, 메인 및 하위 에이전트가 독립적으로 훈련을 받을 수 있다.
-
각 에이전트는 그들이 맡은 역할에 따라 평가되며, 전체 결과에 대한 기여도를 기준으로 훈련이 조정된다.
-
연구자들은 Qwen3-30B 모델을 사용해 시스템을 훈련하고 GAIA, XBench-DeepSearch, WebWalkerQA 같은 벤치마크에서 테스트했다. M-GRPO는 단일 GRPO 에이전트 및 훈련되지 않은 하위 에이전트와 비교해 더 안정적인 행동을 보였고, 더 적은 훈련 데이터로 강력한 성능을 달성했다.
-
실제 예제로, 루빅스 큐브 논리 작업에서 훈련된 시스템은 수학적 단계에 맞는 올바른 추론 도구를 선택했다. 연구 과제에서는 침습성 물고기 종에 대해 더 정확한 검색 지시를 내렸다.
-
코드와 데이터셋은 GitHub에서 이용 가능하다.
