
인공지능 최적화의 시대, ARC 벤치마크의 무너짐이 보여주는 AI의 새로운 한계와 도약
인공지능(AI) 연구의 역사는 특정 능력을 판단하는 벤치마크와의 싸움이라 해도 과언이 아닙니다. 그중 ARC(Abstraction and Reasoning Corpus)는 AI의 ‘유동적 지능’, 즉 처음 보는 문제를 어떻게 풀어내는지 평가하는 최첨단 테스트로 자리매김해 왔습니다. 그런데 최근, Poetiq와 OpenAI가 이 벤치마크까지 사실상 깼다는 소식이 전해졌습니다. 이 결과가 의미하는 것, 그리고 앞으로 AI 분야가 어디로 가게 될지 쉽고 재미있게 풀어보겠습니다.
ARC 벤치마크란? AI 지능의 진짜 시험대
ARC는 프랑수아 숄레(François Chollet)가 2019년 제안한 테스트로, 기존 AI 평가가 데이터 암기력에만 치중해 있던 한계를 극복하고자 만들어졌습니다. 사람에게는 쉬운 컬러 그리드 퍼즐을 주고, 단 몇 개의 예시만 가지고 그 규칙을 추론해서 보지 못한 새로운 문제까지 해결할 수 있나를 평가하는 거죠.
이는 단순한 패턴 암기가 아니라, 진짜 ‘배우고 추론하는 능력’, 즉 AGI(Artificial General Intelligence)로 가는 지름길로 여겨졌습니다. ARC 벤치마크에서 고득점을 내는 AI는, 인간처럼 새로운 규칙을 빨리 익히고 응용할 수 있다는 의미였으니까요.
Poetiq의 AI가 ARC를 넘어선 순간: 인간 평균 성적을 초월하다
2025년 12월, AI 스타트업 Poetiq는 충격적인 결과를 발표했습니다. ARC-AGI-2 평가에서 OpenAI의 최신 언어 모델 GPT-5.2 X-High와 자사의 ‘메타 시스템’을 결합한 결과, 75%의 정확도를 기록했다는 것입니다. 이는 인간 평균 점수(60%)를 한참 웃도는 수치입니다.
이뿐 아니라 같은 시스템으로 별도의 모델 맞춤 훈련 없이도 뛰어난 성능을 달성하고, 문제당 비용도 과거보다 훨씬 저렴하게 만들었습니다. 즉, 고도의 컴퓨팅 파워와 비용이 필요하던 기존 방식이 효율적으로 바뀌었다는 뜻입니다.
AI는 어떻게 ARC를 “깨부쉈나” : 맞춤형 루프와 적응 전략의 진화
이 혁신의 핵심은 단순히 언어 모델을 거대하게 만드는 것이 아니라 ‘적응과 추론’ 전략에 있습니다. Poetiq의 시스템은 각 문제에 대해 먼저 코드를 생성하고, 그걸 실행해본 뒤, 제대로 풀렸는지 스스로 체크하고, 틀렸다면 다시 수정하며 반복합니다. 여러 번 시도해보고 평균을 내는 ‘추론 루프’가 본질인 셈이죠.
이 과정에는 구글의 Gemini 3처럼 다양한 대형 모델들과 오픈소스 모델까지 조합했고, 최근 트렌드인 ‘테스트 타임 적응(test-time adaptation)’ — 실행 순간에 스스로 전략을 변경하며 푸는 — 방식이 뒷받침됐습니다. 이렇게 해서 인간처럼 즉각적으로 적응하며, 기존의 데이터 암기 한계를 넘어설 수 있었습니다.
대중 데이터셋의 함정과 진짜 ‘지능’에 대한 논쟁
그런데 이러한 AI들의 성과가 모두 진짜 ‘지능’의 발현일까요? 여전히 논란이 남아 있습니다. 현 벤치마크 점수는 대부분 ‘공용(public)’ 데이터셋에서 나온 것이고, ARC의 관리자가 비공개로 관리하는 '반공용(semi-private)' 데이터셋에서는 AI의 정확도가 크게 떨어지기도 했습니다.
이유는 ‘데이터 오염(data contamination)’에 있는데, 대형 모델들이 공용 벤치마크 문제를 학습 데이터로 써 버리면서 실제로 처음 보는 문제에 대한 '진정한 일반화' 능력을 제대로 평가하기 어렵다는 겁니다. Poetiq 역시, 반공용 세트에서는 성능이 약 54%로 낮아졌죠. 그럼에도 ARC-AGI-2와 같은 최신 벤치마크는 보다 정교한 검증으로 이런 문제에 대응하고 있습니다.
AI 연구 전략의 변화: ‘암기’에서 ‘적응’으로
프랑수아 숄레를 비롯한 AI 연구자들은 최근 성과를 단순한 모델 크기 확장, 데이터량 증가의 시대가 끝나고 ‘적응적 추론’의 시대로 넘어갔다는 신호로 해석합니다.
즉, AI가 ‘생각하는 창고’가 아니라 ‘상황에 맞춰 배우고 변화하는 엔진’으로 진화하고 있다는 의미죠. 실제 AI 산업도 특정 벤치마크의 점수만 높이는 것에서 벗어나, 테스트 시점에 스스로 방법을 새롭게 설계하는 전략에 집중하고 있습니다. ARC를 ‘지능의 진짜 시험대’로 삼아 이 방향성을 확고히 하는 모습입니다.
벤치마크의 종말, 그 후: AI 연구의 시사점과 새로운 도전
ARC가 기존의 '넘기 힘든 장벽'이 아니라, 최적화 전략의 대상이 되어 사실상 ‘무너진’ 지금, 벤치마크의 역할은 바뀌고 있습니다. ARC-AGI-1, ARC-AGI-2가 집중적으로 공략된 뒤, 이제 '문제 그 자체를 만들고 채점해서 경쟁하는' 연구 환경이 형성되고 있죠. 실제로 ARC Prize 같은 경쟁이 AI 연구 생태계의 촉진제가 되고 있습니다.
AI가 ARC 문제를 풀었다고 해서 인간처럼 사고하는 것은 아닙니다. 아직 언어, 사회적 추론, 육체적 능력, 상황 적응 등 여러 진짜 지능의 영역은 남아 있습니다. 하지만 ARC 벤치마크가 보여주는 것은, AI가 ‘임의의 추상적 과제’도 점점 더 빠르고 싸게 최적화할 수 있다는 점, 그리고 앞으로 ‘적응력’이 인공지능 평가의 중요한 척도가 된다는 점입니다.
다음 단계로는, 숄레와 ARC Prize 팀이 준비 중인 ‘환경에서 직접 행동하는 능력’을 실험할 ARC-AGI-3 등 더 복합적이고 실제적인 테스트가 기다리고 있습니다.
우리가 얻을 수 있는 교훈과 앞으로의 활용법
ARC의 붕괴는 ‘최첨단 벤치마크’마저도 끈질긴 최적화와 맞춤형 전략으로 공략되는 시대에 들어섰다는 신호입니다. 여러분이 AI를 현업이나 일상에 활용한다면, 단순히 점수 높은 모델이 아니라 ‘적응성’, ‘추론력’, ‘실제 환경에서의 일반화’ 능력이 중요하다는 점을 기억하세요.
벤치마크는 순간의 기술적 한계와 성과를 보여주지만, 진정한 인공지능의 미래는 이제 그 너머, 사람처럼 상황을 이해하고 바꿔나가는 적응적 AI에서 찾아야 할 때입니다.
참고
[1] The ARC benchmark's fall marks another casualty of relentless AI optimization - The Decoder
[2] ARC-AGI-2 Benchmark Breakthrough: GPT-5.2 and Poetiq Results - SuperGok
[3] ARC‑AGI: A Benchmark for Fluid Intelligence in the AI Boom and the Road to AGI - StreamlineFeed
