GPT-5.2 Pro, ‘끝판왕’ 수학 벤치마크를 뚫다: Tier 4 31%의 의미
요즘 AI 뉴스는 “또 성능이 올랐다”로 끝나기 쉽습니다. 그런데 이번 소식은 결이 다릅니다. OpenAI의 GPT-5.2 Pro가 연구급 수학 문제를 모아둔 FrontierMath의 최상 난이도(Tier 4)에서 31%를 기록하며, 이전 최고였던 Gemini 3 Pro의 19%를 크게 넘어섰습니다. 단순히 점수가 오른 게 아니라, “모델들이 늘 헤매던 문제 유형”에서 실제로 답을 내기 시작했다는 신호에 가깝습니다.
이 글에서는 FrontierMath가 왜 무서운지, GPT-5.2 Pro의 기록이 어떤 장면을 바꿨는지, 그리고 “수학자들이 칭찬하면서도 경계하는 이유”까지 한 번에 정리해 보겠습니다.
FrontierMath Tier 4가 ‘AI 수학의 보스전’인 이유
FrontierMath는 교과서 문제나 경시대회 스타일을 넘어, 현대 수학의 여러 분야에서 뽑아 만든 초고난도 문제 묶음입니다. 리더보드 설명만 봐도 범위가 살벌합니다. 정수론부터 해석학, 대수기하, 범주론까지… ‘수학과목 종합선물세트’인데 난이도는 연구자 모드입니다.1
특히 Tier 4는 “풀려면 며칠~일주일 단위로 매달릴 수도 있다”는 수준으로 소개됩니다. 문제 자체도 길고, 풀이가 특정 논문 몇 편을 알고 있다는 전제 위에 서 있는 경우가 많죠.2 즉, 여기서 점수가 나온다는 건 계산이 빠르다는 뜻이 아니라, 낯선 개념의 숲에서 길을 찾아 나올 확률이 올라갔다는 의미입니다.
GPT-5.2 Pro의 Tier 4 31%: 숫자보다 중요한 장면
이번 기록은 GPT-5.2 Pro가 FrontierMath Tier 4에서 31%를 기록해 새 최고점을 찍었다는 점입니다. 이전 Gemini 3 Pro가 19%였던 것을 생각하면, “비슷한 급의 모델끼리 조금 앞섰다”가 아니라 체감 난이도 자체가 달라지는 간격입니다.
더 흥미로운 포인트는 ‘몇 개를 맞혔냐’입니다. Tier 4 총 48개 과제 중 15개를 해결했고, 그중 4개는 이전까지 어떤 모델도 못 풀었던 문제였다고 알려졌습니다. 이 대목이 중요한 이유는 간단합니다. 기존에는 다 같이 막히던 벽이 있었는데, 이제는 그 벽에 작은 출입구가 생겼다는 뜻이거든요.
물론 이 수치는 리더보드/커뮤니티 기반으로 먼저 확산되는 경우가 많아 “검증 방식, 조건, 재현”을 따져봐야 합니다. FrontierMath 리더보드 자체도 ‘검증 상태’가 별도로 표기될 만큼, 벤치마크 세계는 조건 싸움이 치열합니다.1 그럼에도 “Tier 4에서 3할”은 그냥 넘기기 어려운 신호입니다.
“맞혔다”와 “증명했다”는 다르다: 수학자들이 조심스러운 이유
수학은 답만 맞히면 끝나는 게임이 아닙니다. 왜 그런지 설명이 맞아야 하고, 가정이 숨어 있으면 바로 탈락입니다.
FrontierMath를 둘러싼 논쟁도 여기서 나옵니다. 일부에서는 모델들이 문제를 자기 마음대로 단순화하거나, 정당화가 빈약한 지름길로 결론에 도달할 수 있다고 지적합니다. “결과는 맞는데 논증이 부실한” 상황이 생길 수 있다는 거죠.2
이번 GPT-5.2 Pro에 대해서도 비슷한 평가가 함께 나옵니다. 몇몇 수학자들은 전체적으로 긍정적이지만, 일부 해설에서 정확성이 부족하다는 비판이 있었다고 전해집니다. 이 말은 뒤집으면 이렇게도 해석됩니다. “답을 찍는 모델”이 아니라 “어쨌든 해설을 검토할 가치가 있는 모델”의 영역으로 들어왔다는 뜻이기도 하니까요.
그래서 다음 단계로 자주 언급되는 것이 ‘기계가 검증 가능한 증명’입니다. 예를 들어 Lean 같은 정리증명기에서 돌아가는 형태로 증명을 내놓으면, 최소한 “그럴싸한 말”은 통하지 않습니다.2 지금은 바로 그 지점이, AI 수학의 다음 관문처럼 보입니다.
GPT-5-Thinking과 -Pro가 ‘실전 수학 도구’가 되는 순간
최근 보고서들은 GPT-5-Thinking, GPT-5-Pro 같은 변형들이 실제 문제 해결에서 도움이 된다고 말합니다. 여기서 핵심은 단순 지식량이 아니라 “끝까지 밀고 가는 사고 체력”입니다.
수학 문제를 풀 때 사람도 이 과정을 겪습니다. 정의를 다시 확인하고, 케이스를 나누고, 반례를 찾고, 계산을 하다 막히면 다른 관점으로 갈아탑니다. Thinking/Pro 계열은 바로 이런 반복을 ‘모델 내부 루틴’으로 더 안정적으로 수행하도록 설계된 방향으로 이해할 수 있습니다.
실무에서는 이게 굉장히 현실적인 가치로 바뀝니다. 예를 들어 연구자는 모델에게 “전체 해답”을 맡기기보다, 막히는 구간에서 보조 아이디어를 얻거나, 관련 보조정리 후보를 뽑거나, 계산 체크를 맡기는 식으로 생산성을 올릴 수 있습니다. 수학이 ‘정답 맞히기’가 아니라 ‘탐색’이라는 걸 생각하면, 이쪽이 오히려 본게임입니다.
Erdős 문제부터 Terence Tao의 경고까지: 기대와 경계의 줄다리기
더 자극적인 소식도 있습니다. GPT-5가 혼자서 Erdős 문제를 풀었다거나, 연구자들이 다른 문제를 푸는 데 도움을 줬다는 이야기가 돌고 있습니다. 만약 재현 가능한 형태로 쌓이면, “AI는 수학을 못 한다”는 문장은 빠르게 구식이 될 겁니다.
다만 여기서 Terence Tao 같은 저명한 수학자가 “성급한 결론을 내리지 말자”고 경고하는 것도 이해가 됩니다. 수학은 한 번의 ‘멋진 성과’보다, 같은 유형의 문제를 반복해서 안정적으로 풀고, 그 논증이 다른 사람에게도 통하는지가 더 중요하니까요. 그리고 벤치마크는 언제나 “어떤 조건에서 측정했는가”에 따라 해석이 달라집니다.
결국 지금은 이 단계로 보입니다. AI가 수학을 “가끔” 하는 시대에서, “어떤 상황에서는 확실히 도움이 되는” 시대로 넘어가는 중. 다만 “수학자를 대체”하는 결론까지 달려가면, 오히려 중요한 변화를 놓칠 수 있습니다.
시사점은 명확합니다. GPT-5.2 Pro의 FrontierMath Tier 4 31%는 AI가 연구급 수학에서 ‘무력하다’는 인식을 흔들었습니다. 동시에 해설의 엄밀성, 검증 가능한 증명, 벤치마크 신뢰성 같은 숙제를 더 선명하게 드러냈죠.
만약 당신이 연구자, 개발자, 혹은 공부하는 입장이라면 결론은 실용적으로 가져가면 됩니다. “AI가 다 풀어준다”가 아니라, “막히는 구간에서 같이 생각해줄 파트너가 생겼다.” 그리고 그 파트너는 점점 더 ‘근거를 갖춘 조언’을 하도록 진화하고 있습니다.
참고
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
키워드만 입력하면 나만의 학습 노트가 완성돼요.
책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.
콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.