AI 추론 모델, 왜 쉬운 문제에서 더 오래 ‘고민’할까?

AI에게 17×24를 물었더니, 마치 중학교 수학 풀이처럼 친절하게 하나하나 적어 내려갑니다.
그런데 정작 더 복잡한 문제를 던졌을 때는, 생각보다 덜 고민하고 얼른 대답해버리죠.
놀랍게도, 최근 연구에 따르면 이런 “이상한 습관”은 단순 해프닝이 아니라 구조적인 문제일 수 있습니다¹².

이 글에서는 다음을 순서대로 살펴봅니다.

요즘 화제인 추론(Reasoning) 모델이 어떻게 생각하는지
왜 쉬운 문제에서 더 깊이 생각하고, 어려운 문제에서 덜 생각하는 기현상이 생기는지
연구자들이 제안한 ‘추론의 법칙(LoRe)’이 무엇인지
그리고 이것이 개발자, 기획자, 업계 종사자에게 주는 실질적인 시사점은 무엇인지

AI를 쓰고 있든, 만들고 있든 “이 모델 지금 제대로 생각하고 있는 게 맞나?”라는 의문이 든 적 있다면 끝까지 읽어볼 만한 이야기입니다.

추론 모델은 기존 LLM과 뭐가 다를까?

요즘 많이 거론되는 OpenAI o1, DeepSeek-R1 같은 모델은 흔히 “추론 모델”이라고 부릅니다.
겉으로 보기엔 ChatGPT나 일반 LLM과 비슷하지만, 내부에서 굴러가는 방식이 조금 다릅니다.

일반적인 LLM은 질문을 받으면 바로 답변 문장을 예측합니다.
반면 추론 모델은 먼저 머릿속에서 “혼잣말”에 해당하는 생각의 기록을 한 번 쭉 써 내려갑니다. 이를 보통 체인 오브 소트(Chain-of-Thought), 혹은 추론 트레이스(reasoning trace)라고 부릅니다¹².

예를 들어, “17×24는 얼마야?”라는 질문이 들어오면, 내부에선 이런 식으로 진행됩니다.

17×24 = 17×(20+4) = 17×20 + 17×4 → 340 + 68 = 408

그리고 마지막에 “정답: 408”만 사용자에게 보여주거나, 일부 모델은 과정까지 함께 보여주기도 합니다.

이 방식을 쓰면 좋은 점이 분명합니다.

한 번에 바로 답을 찍는 대신
여러 단계에 걸쳐 문제를 쪼개고 점검하면서
특히 수학, 논리, 코딩, 과학 문제처럼 복잡한 작업에서 정확도를 끌어올릴 수 있습니다¹³⁴.

그래서 지금의 추론 모델들은 인간의 “느린 생각(System 2)”을 흉내 내는 방향으로 설계되고 있습니다.
하지만, 문제는 이 “생각 과정”이 언제나 합리적으로 돌아가는 건 아니라는 데 있습니다.

이상한 현상: AI가 쉬운 문제에서 더 오래 고민한다?

최근 연구에서 DeepSeek-R1을 대상으로 흥미로운 실험이 진행됐습니다¹⁵².

연구진이 모델에게 두 가지 유형의 문제를 줬습니다.

단일 작업
- 예: “숫자 하나를 제곱해라” (square a number)
복합 작업
- 예: “먼저 여러 숫자를 더한 뒤, 그 합을 제곱해라” (sum then square)

상식적으로는 두 번째가 더 어렵습니다.
사람 입장에서 생각하면,
“합을 구하고 → 그 결과를 다시 제곱해야 하니까”
한 단계 더 많죠.

그런데 DeepSeek-R1의 실제 행동은 이랬습니다.

단순 제곱 문제에선
- 복합 문제보다 약 300개의 추론 토큰을 더 많이 사용했습니다.
하지만 복합 문제에서는 정확도가 12.5%나 떨어졌습니다.

요약하면:

쉬운 문제에선 더 길게 생각하고,
어려운 문제에선 덜 생각하면서
정작 정확도도 더 떨어진다¹⁵².

이건 사람 입장에선 꽤 “비상식적”입니다.
우리는 어려운 문제일수록 더 오래 고민하고, 쉬운 문제는 대충 보고 바로 풀어버리죠.

연구자들은 여기서 중요한 결론을 하나 짚습니다.

“현재의 대형 추론 모델들은 인간이 직관적으로 이해할 수 있는 ‘논리적인 사고 패턴’을 안정적으로 따르지 못한다.”

즉, 모델이 “열심히 생각하는 척”을 하긴 하는데,
그 고민의 양과 질이 문제 난이도에 맞게 배분되지 않는다는 겁니다.

그 이유는 어디에 있을까요?

연구자들은 훈련 데이터와 지금까지의 학습 방식을 지목합니다¹⁵².

체인 오브 소트 예시는
- 사람 손으로 만들거나
- 기존 모델이 생성한 것을 필터링해서 쓰는데
“이 문제는 이 정도 길이로 생각해라” 같은 명확한 규칙이 거의 없습니다.

그러다 보니 모델은

어떤 문제에선 불필요하게 길게 떠들고 (오버씽킹)
어떤 문제에선 충분히 생각도 안 하고 (언더씽킹)
둘 사이에서 들쭉날쭉한 패턴을 보입니다.

이 비효율을 정리하려고 나온 개념이 바로 ‘추론의 법칙(Laws of Reasoning, LoRe)’입니다.

‘추론의 법칙(LoRe)’: AI가 “제대로 생각한다”는 건 무엇일까?

연구자들은 “추론 모델이 이상적으로 생각하는 상태”를 이론적으로 정리해 보자며, LoRe(추론의 법칙)라는 프레임워크를 제안했습니다¹⁵².

핵심은 두 가지 법칙입니다.

1. 연산(Compute)의 법칙: 난이도에 비례해서 생각해야 한다

첫 번째 법칙은 간단합니다.

“문제가 두 배로 어렵다면, 들어가는 생각(연산)도 대략 두 배가 되어야 한다.”

실제 난이도를 숫자로 재기 어렵기 때문에, 연구자들은 측정 가능한 두 가지 성질로 바꿉니다.

단조성(Monotonicity)
- 더 어려운 문제에는 더 많은 추론 시간/토큰을 써야 한다.
- 난이도가 올라가는데, 생각량이 줄어드는 건 비정상.
합성 가능성(Compositionality)
- 문제 A를 푸는 데 1분, 문제 B를 푸는 데 2분 걸린다면,
- “A 하고 B 둘 다 해라”라는 복합 문제는 대략 3분 정도 써야 자연스럽다.

즉, 복합 과제의 생각량은 각 부분 과제의 합과 비슷해야 한다는 가정입니다.

현재 모델들은 어떨까요?

다양한 수학, 과학, 언어, 코드 문제 40개를 다양한 난이도로 구성해 실험해 보니¹⁵²
- 대부분의 모델은 단조성은 그럭저럭 잘 지킨다고 나옵니다.
- 어려운 문제일수록 대체로 더 오래 생각하긴 합니다.
하지만 합성 가능성 테스트에서 모든 모델이 실패합니다.
- 합쳐진 문제를 풀 때,
- 기대되는 “A+B 만큼의 생각”을 하지 않고
- 엉뚱하게 적거나, 지나치게 적게 생각해 버립니다.

심지어 추론 길이를 제어하기 위해 설계된 모델들(예: Thinkless, AdaptThink)조차 이 합성 테스트에서 별다른 이점이 없었다는 점이 인상적입니다¹⁵².

2. 정확도의 법칙: 어려워질수록 정답률은 자연스럽게 떨어진다

두 번째 법칙은 정확도에 관한 것입니다.

“문제가 어려워질수록 정확도는 지수적으로 감소하는 것이 자연스럽다.”

즉, 난이도가 올라가면 조금씩이 아니라, 꽤 가파르게 성능이 떨어지는 게 정상이라는 의미입니다.
사람도 그렇죠. 고난도 수학, 복잡한 과학 문제를 풀 때 정답 비율이 확 떨어집니다.

이 법칙은

모델의 “적절한 한계”가 어디에 있는지
어떤 난이도에서부터 추가 연산이 의미 없는 지점이 오는지
를 이해하는 데 도움을 줍니다.

흥미로운 건, 현재 모델들은

생각량은 난이도와 어느 정도 같이 가는데도
정작 중요한 복합 문제에서 정확도가 많이 깨지고
생각량 배분도 합리적이지 않다는 점입니다.

그래서 연구자들은 “그렇다면, 생각량을 더 잘 배분하도록 모델을 다시 가르치면 성능이 좋아지지 않을까?”라는 실험을 합니다.

복합 과제에서 무너지는 이유와, 이를 고치는 새로운 학습법

연구팀은 LoRe의 합성 가능성을 살리기 위해, 새로운 파인튜닝 전략(SFT-Compo)을 고안했습니다¹⁵².

아이디어는 생각보다 단순합니다.

세 가지 질문을 묶어 그룹을 만듭니다.
- 문제 A
- 문제 B
- “A와 B를 동시에 요구하는” 복합 문제 A+B
모델에게 여러 번 답변을 생성하게 합니다.
- 각 답변은 추론 토큰 길이(=생각량)를 가집니다.
이 중에서,
- 복합 문제 A+B를 풀 때의 추론량이
- A를 풀 때 + B를 풀 때의 추론량 합과 가장 잘 맞는 사례를 골라
- 그 예시들로 모델을 다시 학습시킵니다.

즉, 모델에게 이렇게 가르치는 셈입니다.

“A랑 B를 합쳐서 풀 때는,
A 생각 + B 생각 만큼은 최소한 해.
괜히 덜 생각하거나, 이상하게 줄이지 마.”

이 방식으로 1.5B, 8B급 모델을 재학습시킨 결과가 꽤 인상적입니다¹⁵².

복합 과제에서 추론량의 편차가 40.5% 감소
수학 및 과학 벤치마크 6개에서
- 정답률(Pass@1) 3~11.2%p 상승
단순히 생각량만 맞춘 게 아니라,
- 전반적인 추론 품질도 향상되는 “시너지 효과”가 관찰됩니다.

즉,
“생각을 길게 하게 만들자”가 아니라
“언제, 얼마나 생각해야 하는지 알려주자”는 전략이 성과를 낸 셈입니다.

이 흐름은 또 다른 연구인 ShorterBetter와도 맞닿아 있습니다³.

ShorterBetter는

한 문제에 대해 여러 번 답을 생성해 보고
그중 “가장 짧으면서도 정답인 추론”의 길이를 기준으로
모델이 “필요 이상으로 길게 떠들지 않도록” 강화학습으로 조정합니다.

이렇게 조정하면

추론 길이는 50~80% 줄이면서도
수학·코딩 등 추론 성능은 크게 떨어지지 않는 결과를 보여줍니다³.

두 연구가 공통으로 시사하는 바는 분명합니다.

“많이 생각하는 모델이 좋은 모델이 아니라,
문제 난이도에 맞게 적당히 생각하는 모델이 좋은 모델이다.”

인간의 모라벡 역설 vs. AI 추론 모델의 새로운 역설

여기서 한 걸음 더 나가, 이 현상을 “모라벡의 역설(Moravec’s Paradox)”과 비교해 보면 재미있는 대조가 보입니다⁶.

모라벡의 역설은 이런 관찰에서 출발합니다.

컴퓨터에게 체스, 수학, 논리 같은 고차원 추론은 비교적 쉽게 시킬 수 있는데
정작 아이처럼 걷고, 얼굴을 알아보고, 물건을 잡는 능력은 엄청나게 구현하기 어렵다.

인간은 이런 저차원(처럼 보이는) 감각·운동 기능을 너무 자연스럽게 수행하기 때문에
“쉬운 문제”라고 느끼지만,
사실은 수억 년에 걸친 진화의 산물이라 컴퓨터로 흉내 내기 극도로 어렵다는 이야기입니다⁶.

반대로, 지금의 추론 모델에선 이런 상황이 벌어집니다.

모델에게 단순한 수식 계산을 시키면
- 불필요하게 길게 생각하거나
- 비합리적인 방식으로 토큰을 낭비하기도 합니다.
복합적인 수학 문제나 과학 문제에서는
- “생각해야 할 만큼 충분히 생각하지 않고”
- 정답률이 크게 떨어지기도 합니다¹⁵².

인간 입장에서 “쉬운 수학”은 AI에겐 굳이 돌아갈 필요 없는 작업일 수 있고,
인간이 “어려운 고차원 추론”이라고 느끼는 부분은
오히려 AI에게는 패턴 매칭과 통계적 예측으로 빠르게 처리 가능한 영역일 수도 있습니다.

이렇게 보면, 지금의 추론 모델들은

“인간과는 전혀 다른 방식으로 ‘어려움’을 느끼고,
전혀 다른 기준으로 ‘얼마나 생각할지’를 결정하고 있다.”

라는 새로운 의미의 역설을 보여준다고 할 수 있습니다.

앞으로 우리는 추론 모델을 어떻게 써야 할까?

연구와 산업의 흐름을 함께 보면, 추론 모델은 지금 “한계를 알면서도 더 투자하는 분야”입니다.

DeepSeek-R1 같은 모델은
- 훨씬 적은 GPU, 더 낮은 비용으로
- OpenAI o1급의 수학·코딩 성능을 보여주며,
- “작은 모델 + 효율적인 추론”의 가능성을 입증했습니다⁴.
OpenAI는 o1 이후 불과 몇 달 만에
- 추론 연산을 10배 늘린 o3를 내며,
- “추론에 더 많은 컴퓨팅을 태우면 성능이 오른다”는 가설을 실험하고 있습니다¹.

한편, 여러 연구는 이런 점도 동시에 지적합니다¹⁵⁷².

추론 모델이 보여주는 “생각”은
- 여전히 통계적 패턴 예측에 불과하며
- 인간처럼 근본적으로 새로운 아이디어를 창조하는 능력과는 다르다.
다만,
- 이미 학습된 지식의 범위 안에서
- 기존 솔루션을 찾는 속도와 효율은 계속 좋아지고 있다.

그렇다면 우리는 이 현실을 바탕으로, 추론 모델을 어떻게 써야 할까요?
개발자, 기획자, 실무자 관점에서 몇 가지 제안을 정리해 보겠습니다.

1. “생각 많이 = 더 똑똑”이라는 환상을 버리기

o1, DeepSeek-R1처럼 추론 옵션이 있는 모델을 쓸 때
- “토큰 더 쓰게, 시간 더 오래 쓰게” 설정한다고
- 무조건 정확도가 오르는 건 아닙니다.
오히려 오버씽킹 구간이 존재하고,
- 너무 길어지면 추론 구조가 무너지고
- 정답에서 멀어지는 사례도 보고되고 있습니다³².

따라서

“중요한 문제니까 reasoning-max!” 식의 감각적인 설정보다는
작업 종류별로 적절한 추론 예산을 정하고
실험을 통해 “이 작업은 어느 수준에서 수익이 꺾이는지”를 찾아가는 전략이 필요합니다.

2. 복합 작업은 나눠서 시키고, 합치는 전략도 고려하기

현재 모델들은 합성 문제에서 유난히 취약하다는 것이 LoRe 연구의 핵심 결과입니다¹⁵².

실무에서는 이렇게 응용할 수 있습니다.

“한 문장에서 다 시키기”보다는
1. 먼저 서브태스크 A를 풀게 하고
2. 그 결과를 입력으로 서브태스크 B를 다시 시키는
  파이프라인 방식을 고려해 볼 만합니다.
예를 들어,
- “데이터 EDA → 통계 분석 → 결과 해석 → 보고서 작성”
  를 한 번에 시키는 대신,
- 각 단계마다 모델을 한 번씩 호출해
- 사람이 중간 결과를 검수하면서 넘기는 식이 더 안전할 수 있습니다.

이는 LoRe의 합성 가능성이 아직 취약하다는 점을 감안한 실용적인 우회 전략입니다.

3. “짧지만 정확한 추론”을 지향하는 모델이 뜬다

ShorterBetter나 SFT-Compo 같은 연구는 공통적으로 이런 메시지를 줍니다¹³².

이제 모델 개발의 경쟁은
- “누가 더 길게 생각하냐”에서
- “누가 더 필요한 만큼만 생각하냐”로 이동 중입니다.
기업 입장에선
- 추론 토큰은 곧 돈이고 지연 시간(latency)입니다.
- 같은 정확도라면, 짧게 생각하는 모델이 무조건 유리합니다.

따라서 앞으로는

“Reasoning 길이 조절이 가능한 모델”
“작업 난이도에 따라 스스로 추론 예산을 조정하는 모델”
“짧은 CoT로도 높은 정확도를 내는 구조”

가 제품 경쟁력에서 점점 더 중요한 요소가 될 가능성이 큽니다.

시사점 정리: AI의 ‘생각 습관’을 이해해야 잘 쓸 수 있다

이 글에서 살펴본 내용을 짧게 정리해 보겠습니다.

추론 모델은 답을 내기 전에 내부적으로 ‘생각의 기록(Chain-of-Thought)’을 생성한다.
이는 수학, 논리, 코딩 등 복잡한 작업에 큰 도움이 된다.
하지만 현재 모델들은 쉬운 문제에서 더 오래 생각하고, 어려운 문제에서 덜 생각하는 비합리적인 패턴을 자주 보인다.
DeepSeek-R1의 “단순 제곱 vs 합+제곱” 실험이 대표적이다¹⁵².
이를 이론적으로 다루기 위해 연구자들은 추론의 법칙(LoRe)를 제안했다.
- 난이도에 비례해 생각량이 늘어나야 하고
- 복합 과제의 생각량은 부분 과제의 합과 비슷해야 하며
- 난이도가 증가하면 정확도는 지수적으로 감소하는 게 자연스럽다는 가정이다².
실제로 테스트해 보니
- 대부분의 모델은 “난이도가 높을수록 더 오래 생각한다”는 단조성은 어느 정도 만족하지만
- 복합 과제의 합성 가능성에서는 전부 실패했다¹⁵².
이를 개선하기 위해
- SFT-Compo 같은 파인튜닝 방식으로
- “복합 문제의 생각량 ≈ 부분 문제들의 합”이 되도록 가르치자
- 복합 과제에서의 성능은 물론, 전반적인 수학·과학 벤치마크 성능이 3~11.2%p 향상되었다¹⁵².
ShorterBetter 연구는
- “가장 짧으면서도 정답인 추론 길이”를 학습 목표로 삼아
- 추론 길이를 50~80% 줄이면서도 정확도를 유지하는 방법을 보여준다³.
산업계는 여전히
- 10배 이상의 추론 연산을 투입하며
- “추론 compute를 키우면 어느 정도까지 성능이 더 나아질지”를 실험 중이다¹⁴.
- 다만, 그것이 인간과 같은 창의적 사고로 이어지지는 않는다는 점에서,
  “잘 조율된 통계적 탐색기”로 보는 것이 타당하다는 의견이 힘을 얻고 있다¹⁶⁷².

결국 메시지는 하나입니다.

“AI가 얼마나 많이 생각하는지”보다 중요한 건
“언제, 어디에, 얼마나 생각을 배분하느냐”입니다.

추론 모델을 연구·개발하거나,
서비스에 붙여 사용하는 입장이라면

추론 토큰 수, reasoning level, step 수 같은 설정을
- 감으로 ‘최대로’ 올리기보다
작업별로 최적의 사고 예산을 찾아가는 실험을 하고,
복합 작업은 단계로 나눠 파이프라인화하는 전략을 고민해 볼 필요가 있습니다.

AI가 “어떻게 생각하는지”를 이해하는 순간,
우리는 AI에게 무엇을 맡기고, 어디까지 믿고, 어디서부터는 사람의 판단을 개입시킬지
더 전략적으로 결정할 수 있게 됩니다.

참고

¹AI reasoning models think harder on easy problems than hard ones, and researchers have a theory for why

³ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

⁴When Reasoning Meets Its Laws

⁵Hey GPT-OSS, Looks Like You Got It – Now Walk Me Through It! An Assessment of the Reasoning Language Models Chain of Thought Mechanism for Digital Forensics

⁶Moravec's paradox - Wikipedia