AI 추론 모델이 똑똑한 이유: ‘사고의 사회’가 내부에서 토론한다

AI가 수학·과학·기획 같은 “복잡한 문제”에서 갑자기 똑똑해진 이유를, 연구팀은 의외의 방식으로 설명합니다. 추론 모델(DeepSeek-R1, QwQ-32B 등)은 단지 생각을 길게 늘어뜨리는 게 아니라, 머릿속에 서로 성격과 전문성이 다른 ‘가상의 목소리들’을 만들어 논쟁시키는, 일종의 사고의 사회(society of thought)를 운영한다는 거죠.1
이 글에서는 그 ‘내부 토론’이 어떻게 성능을 올리는지, 8,000개 이상 추론 문제 분석과 강화학습 실험에서 어떤 패턴이 보였는지, 그리고 우리가 AI를 더 정확하게 쓰려면 무엇을 바꿔야 하는지까지 한 번에 정리해볼게요.2
‘사고의 사회’란? 혼잣말 대신 내부 회의하는 AI
기존 언어모델이 문제를 받으면 “한 사람이 끝까지 설명하는 독백”처럼 답을 밀어붙이는 경우가 많았다면, 최신 추론 모델은 같은 모델 안에서 여러 관점이 번갈아 튀어나오는 경향이 강하다고 합니다.2
연구진이 말하는 ‘사고의 사회’는 별도의 멀티 에이전트 시스템을 붙인 게 아닙니다. 한 모델이 답을 만드는 과정에서 스스로를 여러 역할로 쪼개, 질문을 던지고 반박하고 정리하는 대화형 흐름을 만들어낸다는 가설이죠.2
DeepSeek-R1이 내부에서 ‘기획자 vs 비평가’로 싸우는 장면
흥미로운 대목은 추론 과정에서 명확한 페르소나(역할)가 관찰된다는 점입니다. 예를 들어 DeepSeek-R1은 복잡한 화학 합성 문제에서 ‘기획자(Planner)’가 경로를 제안하면, ‘비평가/검증자(Critical Verifier)’가 중간 가정을 공격하며 오류를 지적하고, 그 충돌을 통해 경로를 수정하는 식의 흐름이 나타났습니다.3
이게 중요한 이유는 단순합니다. 복잡한 문제에서 실수는 보통 “계산 능력 부족”이 아니라 “그럴듯한 가정 하나를 그냥 통과”시키면서 생기거든요. 내부에 까다로운 감시자가 있으면, 사람이 팀으로 일할 때처럼 ‘대충 넘어갈 구멍’이 줄어듭니다.
8,000개 이상 문제에서 확인된 패턴: 반복 질문, 관점 전환, 의견 충돌
연구진은 8,000개 이상의 추론 문제를 분석해, 추론 모델이 일반 지시형 모델보다 질의응답을 스스로 반복하고, 관점을 바꾸고, 의견 충돌을 더 많이 드러낸다고 보고했습니다.1
또 “이런 게 진짜 토론처럼 보이냐?”는 비판을 피하기 위해, 판정 모델로 Gemini 2.5 Pro를 활용해 해당 패턴이 사람 평가와 상당히 일치하는지도 점검했습니다.1 여기서 핵심은, 내부 텍스트가 길어서가 아니라 서로 다른 방향의 생각이 부딪히는 구조 자체가 더 자주 등장한다는 점이에요.
성격도 다양하지만… 이상하게 ‘성실성’은 다 근면하다
연구에서는 내부 목소리들을 Big Five 성격(외향성·협조성·성실성·신경성·개방성) 프레임으로 해석했을 때, 고급 추론 모델일수록 “다양성”이 크다고 설명합니다.1
그런데 재미있는 예외가 하나 있습니다. 여러 목소리가 등장해도 성실성(conscientiousness)만큼은 전체적으로 엄격하고 근면한 방향으로 공통적으로 나타난다는 점이죠.1
현실 팀 프로젝트로 치면, ‘아이디어 뱅크’도 있고 ‘시니컬한 리뷰어’도 있는데, 모두가 마감과 검증에는 진심인 팀에 가깝습니다. 토론은 하되, 대충 합의하고 끝내진 않는 타입이랄까요.
정확도 2배 실험: ‘대화형 사고 신호’를 키우면 성능이 뛴다
가장 눈길을 끄는 결과 중 하나는, 수학 문제에서 대화형 사고 신호(놀라움, 인식, 확인 등)를 강화했더니 정확도가 27.1%에서 54.8%로 크게 상승했다는 부분입니다.1
또 강화학습 실험에서는 보상을 “정답”에만 걸었는데도, 모델이 자발적으로 중간 점검·오류 수정 같은 대화형 행동을 더 많이 보이기 시작했다고 합니다.1 즉 “대화하라고 가르치지 않았는데도”, 맞히려고 하다 보니 스스로 내부 토론 습관을 발달시킨 셈이죠.
논란도 있다: 복잡해지면 오히려 추론이 무너질 수 있다는 지적
물론 장밋빛 결론만 있는 건 아닙니다. 2025년 애플 연구진은 복잡도가 올라갈수록 DeepSeek-R1 같은 추론 모델에서 오히려 사고 정확도가 떨어질 수 있다는, 이른바 스케일링 한계 논쟁을 던진 바 있습니다.1
즉 ‘사고의 사회’가 만능 엔진이라기보다, 잘 설계되면 강력하지만 복잡성이 폭증하는 환경에서는 내부 토론이 길을 잃거나 비용만 커질 가능성도 남아 있습니다. “회의가 길어지면 결정이 늦어지는” 인간 조직과 꽤 닮은 구석이 있죠.
시사점을 정리해보면 이렇습니다. 첫째, 추론 모델의 강점은 단순히 ‘생각을 오래 함’이 아니라, 내부에 다양한 관점이 충돌하고 조정되는 집단지성형 구조에 가깝습니다.2 둘째, 정확도를 높이고 싶다면 프롬프트나 학습 데이터에서 ‘정답만 깔끔하게 제시하는 독백’보다, 검증·반박·재검토가 드러나는 대화적 흔적을 일부러 남기는 게 오히려 도움이 될 수 있습니다.3
개인적으로는 앞으로 AI 활용법이 “좋은 질문을 던지는 법”에서 한 단계 더 나아가, “AI 내부에 좋은 팀을 꾸리는 법(역할·충돌·검증 루틴)”으로 이동할 거라고 봅니다. 우리가 AI에게 원하는 건 천재 한 명이 아니라, 실수는 빨리 잡고 결론은 단단하게 만드는 작은 위원회에 더 가깝거든요.
참고
1연구에 따르면 AI 추론 모델은 과정 내에서 서로 논쟁하는 목소리들이 있는 "사고의 사회"를 생성한다고 한다.
2Reasoning Models Generate Societies of Thought
3AI models that simulate internal debate dramatically improve accuracy on complex tasks | VentureBeat