사카나 AI의 TreeQuest: 다중 LLM 집단지능으로의 도약

개요

최첨단 인공지능 분야에서 모델 규모와 학습량의 확장만으로는 한계에 부딪히는 경우가 늘고 있다. 일본의 사카나 AI(Sakana AI)는 여러 대형 언어 모델(LLM)의 협업을 통해 문제 해결 능력을 극대화하는 혁신적인 프레임워크 TreeQuest를 발표하였다. 이 시스템은 단일 모델이 독자적으로는 도달할 수 없는 집단지능(collective intelligence)의 경지를 구현하며, AI 응용의 현장에 실제적인 성능 향상을 가져왔다.

다중 모델 협업의 배경과 필요성

대형 언어 모델들은 저마다 고유한 학습 데이터와 아키텍처로 인해 각기 다른 강점과 약점을 지닌다. 예를 들어, 어떤 모델은 코드 생성에 특화된 반면, 또 다른 모델은 창의적 글쓰기나 복잡한 논리 추론에 강점을 보인다. 기존에는 단일 모델의 성능을 극대화하기 위한 데이터 및 파라미터의 단순 확장, 즉 '훈련 단계 확장(training-time scaling)'이 중점이었으나, 이는 편향(bias), 환각(hallucination), 복잡한 응답 등 여러 현실적인 한계를 내포한다[2][3][5][6].

사카나 AI는 이런 한계 극복을 위해 '추론 단계 확장(inference-time scaling)'에 주목했다. 즉, 이미 훈련된 여러 LLM의 집단을 동적으로 활용해 각 모델의 장점을 특정 과업에 전략적으로 배치함으로써, 보다 강력하고 신뢰할 수 있는 AI 응용 시스템을 구현할 수 있다는 것이다.

핵심 기술: AB-MCTS와 Multi-LLM AB-MCTS

TreeQuest의 기술적 심장은 '적응적 분기 몬테카를로 트리 탐색(Adaptive Branching Monte Carlo Tree Search, AB-MCTS)' 알고리즘이다. 이 방법론은 두 가지 탐색 전략을 지능적으로 결합한다. 첫째, 유망한 해답을 반복적으로 개선하는 '깊이 탐색(deep search)', 둘째, 전혀 새로운 해답을 생성해보는 '넓이 탐색(wide search)'이다. 각 단계마다 트리 탐색 경로와 사용 모델을 확률 기반으로 선택하고, 도중에 가장 효과적인 경로와 모델로 자원을 집중시킨다[2][3][6][7].

Multi-LLM AB-MCTS 확장에서는 각 탐색 분기마다 '무엇을 할 것인가(개선 vs. 생성)'뿐 아니라 '어떤 모델을 사용할 것인가'까지 판단한다. 초기에는 다양한 LLM을 폭넓게 활용하다가, 탐색이 진행될수록 실적이 뛰어난 모델에게 비중을 늘리며 효율성을 최적화한다. 대표적으로 o4-mini, Gemini 2.5 Pro, DeepSeek-R1과 같은 최첨단 모델들이 협업하여 복잡한 문제 해결에 동원되었다[2][3][5][6][7].

집단지능의 성과와 실증

이 집단지능 구조는 대표적 벤치마크 ARC-AGI-2(Abstraction and Reasoning Corpus, AGI-2)에서 단일 LLM 대비 30% 이상 높은 정확도를 기록하였다. 실제로 120개 문제 중 30% 이상을 정확히 해결했으며, 개별 모델이 단독으로는 도달하지 못했던 해답에 협업을 통해 도달하는 사례도 확인되었다. 예컨대, 한 모델의 오답을 다른 모델들이 진단하고 보완하여 최종적으로 올바른 솔루션을 도출한 것이다[2][3][5][6][7].

이는 단순 앙상블(voting ensemble)이나 선형 모델 선택을 넘어서, 단계별 최적 모델 할당 및 환각(hallucination) 완화 등 실제 업무 현장에 신뢰성을 더할 수 있는 방식임이 실증되었다. 특히 모델별 환각 발생 확률이 다름을 활용해, 논리적 정확성과 사실적 타당성을 고루 확보할 수 있다는 점에서 기업 AI 시스템에 중요한 가치를 부여한다.

TreeQuest: 실용적 오픈소스 프레임워크

사카나 AI는 이 기술을 오픈소스 프레임워크 'TreeQuest'로 공개했다. Apache 2.0 라이선스 하에 배포되어 상업적 활용이 가능하며, 유연한 API를 제공해 개발자와 기업이 손쉽게 여러 LLM, 다양한 문제 유형, 맞춤형 점수화 및 논리 적용이 가능하다. TreeQuest는 반복적 탐색, 체크포인팅, 다양한 전략 시나리오 등 실전에서 활용도 높은 기능을 내장하고 있어, 복잡한 알고리즘 디자인, 웹 서비스 성능 최적화, 머신러닝 모델의 정밀도 향상 등 여러 산업 분야에서 즉각적인 적용 가능성을 시사한다[4].

이러한 실용적 도구의 등장은 신뢰성과 성능이 한층 향상된 차세대 엔터프라이즈 AI 적용의 물꼬를 트고 있다.

전망과 의의

다수 LLM의 집단지능 구조는 AI의 한계를 극복할 유력한 대안이다. TreeQuest와 같은 프레임워크를 통한 '추론 단계 확장'은 단순히 모델을 키우는 시대에서 벗어나, 협업과 전략적 조율을 통해 AI의 지능적 활용성을 높이는 전환점이 될 것으로 평가된다. 향후 기업용 AI의 주요 흐름으로 자리 잡을 가능성이 매우 높다[2][3][5][6][7].

참고문헌

[1] 사카나 AI의 TreeQuest는 다중 모델 협업을 통해 LLM 성능을 30% 향상시킵니다. - TILnote [2] Sakana AI’s TreeQuest: Deploy multi-model teams that outperform individual LLMs by 30% - VentureBeat [3] 日 사카나AI, AI 모델 '집단지능' 실현…단일 LLM보다 30% 정확도 높여 - TokenPost [4] GitHub - SakanaAI/treequest: A Tree Search Library with Flexible API for LLM Inference-Time Scaling - GitHub [5] Sakana AI 推出 TreeQuest：多模型团队表现超越单一大语言模型30% - 腾讯新闻 [6] Sakana AI’s TreeQuest: Deploy multi-model teams that outperform individual LLMs by 30% - DNYUZ [7] Sakana AI’s TreeQuest: Deploy multi-model teams that outperform individual LLMs by 30% - iStart Valley

사카나 AI TreeQuest 공개: 다중 LLM 집단지능으로 AI 성능 30% 향상 및 오픈소스 활용 방법