새로운 과학 벤치마크가 말해주는 불편한 진실: LLM은 아직 ‘진짜 연구자’가 아니다

“GPT-5가 박사보다 똑똑하다더라”는 말을 한 번쯤 들어보셨을 겁니다.
실제로 최신 대형 언어 모델(LLM)은 어려운 과학 시험을 척척 풀어내고, 논문도 요약하고, 코드도 잘 짭니다.

그런데, 새로 나온 과학 벤치마크 ‘SDE(Scientific Discovery Evaluation)’를 돌려봤더니, 충격적인 결과가 나왔습니다.
시험은 잘 보는데, 정작 ‘진짜 과학 연구’에서는 여전히 서툴다는 겁니다¹².

이 글에서는

기존 과학 벤치마크가 무엇을 놓치고 있었는지
SDE가 무엇을 새롭게 측정하는지
GPT-5 같은 최상위 모델이 어디서, 어떻게 실패하는지
그럼에도 불구하고 LLM이 과학 연구에서 어떤 역할을 할 수 있는지

를 쉽고 재미있게 정리해 보겠습니다.

1. 왜 LLM은 ‘과학 시험 1등’인데 ‘연구자는 아닌’가?

LLM이 잘하는 건 이미 증명됐습니다.
대표적인 과학 벤치마크인 GPQA, MMMU 같은 테스트에서는 GPT-5가 인간 최고 수준의 점수를 냅니다²³.

예를 들어 GPT-5는 GPQA-Diamond라는 고난도 과학 문제 세트에서 정확도 0.86을 기록합니다².
이쯤 되면 “이젠 AI가 연구도 대신 하겠네?”라는 생각이 들 만합니다.

하지만 SDE라는 새로운 벤치마크에 같은 모델을 넣어보니, 점수가 0.60~0.75 수준으로 뚝 떨어집니다².
여전히 나쁘지 않은 수치지만, “과학을 주도하는 초지능”이라 부르기엔 애매한 결과입니다.

연구자들의 해석은 단순합니다.

기존 벤치마크 = 잘 만든 과학 퀴즈
실제 과학 연구 = 엉망진창인 현실 속에서 끝없이 시행착오를 반복하는 과정

시험을 잘 보는 것과, 새로운 현상을 이해하고 가설을 세우고 깨고 다시 세우는 건 전혀 다른 능력이라는 거죠⁴.

2. 기존 과학 벤치마크의 한계: ‘퀴즈 천재’를 키운 구조

지금까지 LLM의 “과학 능력”은 대부분 다음과 같은 방식으로 측정되었습니다.

한 줄짜리 문제
객관식 또는 단답형
명확한 정답이 존재
출제자가 의도한 ‘지식’을 알고 있는지 확인

GPQA, MMMU, ScienceQA 같은 유명 벤치마크들이 이 패턴입니다²³.
문제는 이런 시험이 진짜 연구 상황과는 너무 다르다는 데 있습니다.

실제 연구는 보통 이렇게 흘러갑니다.

애매하고 복잡한 문제를 접한다.
관련 문헌과 데이터를 보며 문제의 맥락을 파악한다.
여러 가설을 세우고,
실험이나 시뮬레이션을 설계하고,
결과가 예상과 다르면 가설을 고치거나 버린다.
이 과정을 수십·수백 번 반복한다.

즉, 핵심은 “사실을 아는지”가 아니라 “불완전한 정보 속에서 어떻게 사고를 굴리는지”입니다¹⁴.

기존 벤치마크는 이런 요소를 거의 반영하지 못했습니다.
그래서 시험 성적만 보면 “와, 이 모델은 박사 이상”처럼 보이지만, 실제 연구 현장에 데려오면 생각보다 허둥대는 일이 발생합니다.

3. SDE 벤치마크: LLM을 ‘연구 현장 한복판’에 던져 넣다

이 문제를 정면으로 다루기 위해, Cornell·MIT·Stanford·Cambridge 등 여러 기관의 연구자들이 새 벤치마크를 만들었습니다.
이게 바로 SDE(Scientific Discovery Evaluation)입니다¹²³.

SDE의 핵심 아이디어는 단순합니다.

“시험지를 잘 푸는지 말고,
실제 연구 프로젝트를 어느 정도나 흉내 낼 수 있는지 보자.”

그래서 SDE는 다음과 같이 설계되어 있습니다.

3-1. 4개 분야, 43개 실제 연구 시나리오, 1,125문항

SDE는 네 가지 과학 도메인을 다룹니다².

생물학
화학
재료 과학
물리학

각 분야의 실제 연구자들이, 자신들이 진짜로 진행 중이거나 진행했던 연구를 바탕으로 43개의 연구 시나리오를 만들었습니다.
이 시나리오를 다시 쪼개서 1,125개의 질문을 구성했고, 모두 동료 연구자의 검증을 거쳤습니다¹².

질문의 형태도 단순한 지식 확인을 넘어서도록 구성됩니다. 예를 들어:

특정 합성 경로에서 가장 현실적인 반응 조건은?
이 NMR 스펙트럼을 바탕으로 가능한 구조 후보는?
특정 질병 GWAS 데이터에서, 어떤 유전자가 인과적 후보로 보이는가?

즉, “OOO의 정의는 무엇인가?”가 아니라
“이 상황에서 너라면 뭘 시도하겠니?”에 가까운 질문들입니다.

3-2. 두 층의 평가: 질문 수준 + 프로젝트 수준

SDE는 두 가지 레벨에서 LLM을 평가합니다¹³.

질문 수준 평가
- 개별 문항에 대해 정답율(accuracy)을 측정합니다.
- 여기서 이미 기존 벤치마크보다 성능이 떨어지는 게 포착됩니다.
프로젝트 수준 평가
- 단일 질문이 아니라, 하나의 연구 프로젝트 전체 흐름을 따라갑니다.
- 모델이 해야 할 일:
  - 실험·시뮬레이션을 설계할 수 있는 검증 가능한 가설 제안
  - 결과(데이터, 그림, 로그 등)를 보고 해석
  - 그에 따라 가설을 수정·보완
- 즉, “발견의 사이클”을 도는 능력을 보는 겁니다.

이 프로젝트 수준 평가가 특히 중요한 이유는, 여기서 LLM의 ‘일관성 부족’과 ‘신념 업데이트 실패’가 적나라하게 드러나기 때문입니다⁴.

4. 시나리오마다 천당·지옥: GPT-5도 한쪽에선 0.85, 다른 쪽에선 0.23

SDE를 돌려보니, 모델의 성능은 “분야별 평균 점수”만으로는 도저히 설명이 안 됩니다.
시나리오 하나하나에서 성적이 널을 뛴다는 게 드러난 거죠.

예를 들어 GPT-5의 경우[^2]:

화학 레트로합성 계획 시나리오: 정확도 0.85
NMR 기반 구조 추론 시나리오: 정확도 0.23

어떤 연구 과제에서는 상당히 도움이 되는 수준인데,
조금만 유형이 바뀌면 거의 찍기 수준에 가까운 성능으로 떨어지기도 합니다.

이 패턴은 GPT-5만의 문제가 아닙니다.
Grok-4, Claude-Sonnet-4.5, DeepSeek-R1 등 다른 최신 모델도 시나리오별 성능 편차가 매우 컸습니다³⁵.

여기서 나오는 중요한 시사점은 이겁니다.

“분야 태그(화학, 생물 등)만 보고 ‘이 모델은 화학에 강하다’라고 말하기 어렵다.”
어느 시나리오에 던져 놓느냐에 따라
‘신입 연구원 수준’에서 ‘전혀 말이 안 되는 답변 제조기’까지
성능이 뒤섞여 나타난다는 거죠.

그래서 연구진은 SDE를 단순한 점수 경쟁 도구가 아니라,
“어떤 연구 시나리오에서 어느 모델을 쓰면 좋은지 알려주는 지도 같은 역할”도 하길 기대하고 있습니다².

5. 모델을 키워도, Reasoning을 늘려도… 과학에서는 수익이 둔화된다

그럼 이렇게 생각할 수도 있습니다.

“그냥 모델 더 크게 만들고, Reasoning에 더 많은 계산을 쓰면 되지 않나?”

SDE 결과는 이 믿음을 꽤 세게 흔듭니다.

5-1. Reasoning은 분명 도움 되지만, 곧 ‘플랫’해진다

먼저 좋은 소식부터.
DeepSeek 시리즈를 보면, Reasoning에 특화된 R1이 같은 베이스 모델의 V3.1보다 대부분의 시나리오에서 더 좋은 성능을 냅니다²³.

예를 들어, 약물의 경구 투여 가능성을 가늠하는 Lipinski의 Rule of Five를 평가하는 시나리오에서
Reasoning을 강화하면 정확도가 0.65 → 1.00으로 뛰기도 합니다².

하지만 여기까지입니다.

GPT-5를 예로 보면[^3]:

Reasoning 부담을 “medium”에서 “high”로 올려도 성능 향상이 거의 없고,
이전 세대 모델인 o3에서 GPT-5로 넘어갈 때도 향상폭이 매우 제한적이며,
심지어 8개 시나리오에서는 GPT-5가 o3보다 성능이 더 나쁩니다.

즉,

“조금 생각 더 시키면 좋아지네?” → 맞음
“그럼 무한히 더 생각하게 하면 기하급수적으로 좋아지겠네?” → 현재로선 아님

5-2. “더 큰 모델 = 더 똑똑한 과학자” 공식이 깨진다

코딩, 수학 같은 영역에서는

모델 크기 ↑ + 테스트 타임 연산량 ↑
⇒ 꽤 꾸준하고 인상적인 성능 향상

이라는 공식이 꽤 잘 통했습니다³⁶.

하지만 과학적 발견이라는 과제에서는 이 공식이 부분적으로만 먹힙니다.

모델을 키우고
Reasoning 토큰을 더 써도

특정 난이도 이상에서는 성능이 거의 안 오르거나, 오히려 퇴행하는 구간이 적지 않게 나타나기 때문입니다²³⁶.

연구자들이 내리는 결론은 이렇습니다.

“과학적 발견을 위한 능력은,
단순한 ‘스케일링 법칙’으로만 해결되지 않는다.”

6. 더 무서운 결과: 서로 다른 모델들이 똑같이 틀린다

여기서 한 발 더 나아가 보면, 꽤 섬뜩한 사실이 드러납니다.

GPT-5, Grok-4, DeepSeek-R1, Claude-Sonnet-4.5 등
서로 다른 회사에서 만든 SOTA(최첨단) 모델들이 있습니다.

연구진이 이 모델들을 SDE에 동시에 물려보니,
틀리는 문제는 다 같이 틀리고, 맞추는 문제는 다 같이 맞추는 경향이 아주 강하게 나타납니다²³⁵.

특히 화학·물리 시나리오에서는 모델 쌍마다 오류 상관계수가 0.8 이상으로 나왔습니다².
이 말은,

“회사도 다르고, 아키텍처도 다르고, 이름도 다르지만
결국 비슷한 데이터, 비슷한 목표로 훈련됐기 때문에
같은 구덩이에 빠진다”

는 뜻에 가깝습니다.

실용적인 의미는 간단합니다.

“최신 모델 4개를 앙상블해서
다수결로 답을 내면 더 안전하지 않을까?”

→ 적어도 가장 어려운 과학 문제에 대해서는 별 소용이 없다는 것.

왜냐하면, 다 같이 같은 오답을 고르는 경우가 매우 많기 때문입니다².

이 약점을 더 날카롭게 보기 위해 연구자들은
특히 어려운 86문항만 모은 SDE-hard 서브셋을 따로 만들었습니다.

대부분의 모델이 여기서 정확도 0.12 미만
12배 비싼 GPT-5-pro만 0.224를 기록하며,
다른 모든 모델이 틀린 문제 9개를 맞추는 수준²

즉, “진짜 어려운 과학 질문 앞에서는, 현재 LLM들은 아직 거의 어둠 속에서 헤매고 있다”는 걸 보여줍니다.

7. 프로젝트 수준에서 더 도드라지는 LLM의 약점과 가능성

SDE의 두 번째 축인 프로젝트 수준 평가에서는 LLM이 “진짜 연구자 역할”을 조금 더 많이 맡게 됩니다¹³⁴.

여기서 다루는 프로젝트는 예를 들면 이런 것들입니다.

단백질 설계
유전자 편집 전략 수립
화학 레트로합성
분자 최적화
물리학에서의 상징 회귀(symbolic regression) 등

각 프로젝트에서 LLM은 다음을 요구받습니다.

연구 목표 이해
테스트 가능한 가설 제안
조건 설정, 실험·시뮬레이션 설계
결과 해석
가설 수정 및 다음 단계 제안

결과는 흥미롭습니다³.

어느 한 모델도 모든 프로젝트를 휩쓰는 ‘만능 연구자’는 아니다.
프로젝트 종류에 따라 1등 모델이 계속 바뀐다.
즉, “이 모델이 과학 전 분야 최강” 같은 평가는 현재 시점에서는 무의미에 가깝다.

동시에, 한 가지 희망적인 관찰도 있습니다¹⁴.

일부 프로젝트에서는,
개별 시나리오 질문 정답률은 낮은데도
모델이 “실험 방향을 탐색하고 아이디어를 던지는” 역할을 꽤 쓸 만하게 수행했습니다.

연구자들은 이를 “유도된 탐색(guided exploration)”과 “우연한 발견(serendipity)”의 효과라고 봅니다.
완벽하게 알지 못해도, 여기저기 찔러보는 과정에서 실제로 의미 있는 제안을 할 수 있다는 겁니다.

8. 그럼 이제 무엇을 바꿔야 할까? 연구자들이 제안하는 다음 단계

논문과 관련 보도들을 종합해 보면, 연구자들이 제시하는 방향은 꽤 구체적입니다¹²³⁶.

문제 설정과 가설 생성 자체를 훈련 목표에 넣어야 한다.
- 지금까지는 “정답 문장을 잘 예측하는 모델”을 만드는 데 집중했다면,
- 앞으로는 “좋은 질문과 가설을 스스로 구성하는 모델”을 길러야 한다는 뜻입니다.
툴 사용을 LLM에 더 깊이 통합해야 한다.
- 코드 인터프리터, 시뮬레이터, 실험 설계 도구를
  단순한 부가 기능이 아니라,
  탐색-실험-해석의 루프 안에 자연스럽게 녹여야 한다.
- 다만 NewtonBench 결과처럼,
  코드 도움은 때로는 탐색을 너무 빨리 끝내 버리는 부작용도 있어서
  “언제, 어떻게 쓰게 할 것인지” 설계가 중요하다⁶.
구체적인 과학적 추론을 목표로 한 강화 학습(RL) 전략이 필요하다.
- 지금의 RLHF는 “사람이 보기 좋은 답변”에 보상을 준다.
- 앞으로는 “좋은 가설을 세우고,
  결과에 따라 믿음을 적절히 수정하는 과정” 자체에 보상을 주는 식의
  새로운 강화 학습 목표가 연구될 필요가 있다.
벤치마크의 폭을 계속 넓혀야 한다.
- 현재 SDE는 생물·화학·재료·물리 4개 분야지만,
- 앞으로 지구과학, 사회과학, 공학 등으로 확장될 수 있도록 설계됐다¹².
- OpenAI도 비슷한 취지의 FrontierScience 벤치마크를 발표하며,
  “단순 질답이 아닌, 연구 전문성을 테스트하겠다”고 밝힌 상태다².

9. LLM은 ‘과학자’가 아니라 ‘연구 조교’에 가깝다

여기까지 내용을 한 줄로 요약하면 이렇습니다.

“LLM은 아직 진짜 과학자를 대체하기엔 한참 부족하지만,
옆자리에 두면 꽤 유능한 연구 조교 역할은 할 수 있다.”

SDE와 NewtonBench 같은 새 벤치마크들이 보여주는 건,
“AI 과대평가”라기보다는 “AI의 강점과 한계를 더 정밀하게 이해할 수 있게 된 것”에 가깝습니다¹⁴⁶.

실제 연구자 입장에서는 이렇게 활용하는 게 현실적입니다.

문헌 조사·요약:
방대한 논문을 훑고, 실험 조건이나 주요 트렌드를 정리하는 데 활용
가설 브레인스토밍:
“혹시 이런 메커니즘은 어떨까?” 같은 아이디어를 여러 개 뽑아보는 용도
실험 설계 초안:
사람이 최종 검토·수정한다는 전제 하에, 후보 실험 프로토콜을 빠르게 여러 개 받아보기
코드·시뮬레이션 스케치:
분석 파이프라인, 시뮬레이션 초기 버전 코드 생성

반대로, 현재로서는 AI에게 전적으로 맡기기 위험한 영역도 분명합니다.

예상과 다른 데이터가 나왔을 때, 신념을 적절히 수정하는 일
상충되는 증거 사이에서 어떤 것을 더 신뢰할지 판단하는 일
기존 이론을 과감히 버리고 새 패러다임으로 넘어가는 결단

이 부분은 여전히 인간 연구자의 몫입니다.

시사점 정리

GPT-5 같은 최상위 LLM도, 새 벤치마크 SDE에서는 진짜 과학 연구를 완전히 수행하기엔 한참 부족한 것으로 드러났습니다.
기존 과학 벤치마크는 주로 “잘 만든 퀴즈”에 가깝고,
문제 맥락 이해, 가설 생성, 반복적 검증 같은 연구의 핵심 요소를 거의 보지 못했습니다.
SDE는 실제 연구 프로젝트에서 뽑아낸 43개 시나리오, 1,125문항으로
LLM을 ‘연구 현장에 던져 넣고’ 평가합니다.
결과적으로,
- 시나리오마다 성능 편차가 심하고
- 모델을 키우고 Reasoning을 늘려도 수익이 금방 둔화되며
- 서로 다른 모델들이 같은 문제에서 똑같이 틀리는 패턴이 강하게 나타났습니다.
그럼에도 LLM은
- 브레인스토밍, 실험 방향 탐색, 문헌 정리 등에서 이미 상당한 도움을 줄 수 있는 연구 조교 역할을 하고 있습니다.
앞으로는
- 문제 설정·가설 생성 자체를 학습 목표에 넣고
- 툴 사용을 깊게 통합하며
- 과학적 추론을 위한 강화 학습을 설계하고
- 더 폭넓은 벤치마크로 검증하는 방향이 중요해질 것입니다.

AI가 연구실을 점령하는 시대는 아직 멀었습니다.
하지만, 연구실 한 켠에 앉아 있는 “말 많은 조교”로서의 AI는 이미 우리 곁에 와 있습니다.
이제 중요한 건,
그 조교에게 무엇을 맡기고, 무엇은 절대 맡기지 않을지를 현명하게 구분하는 일입니다.

참고

¹Evaluating Large Language Models in Scientific Discovery

²New benchmark shows LLMs still can't do real scientific research

³Neuer Benchmark zeigt: LLMs scheitern noch an echter wissenschaftlicher Forschung

⁴AI and LLMs still suck at scientific discovery, new study reveals exactly why

⁶NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents