선도적인 AI agents를 Google reCAPTCHA v2와 비교하여 벤치마킹
-
Claude Sonnet 4.5, Gemini 2.5 Pro, GPT-5라는 세 AI 모델은 Google reCAPTCHA v2 과제를 해결하기 위해 평가되었습니다. Claude Sonnet 4.5가 60%의 성공률로 가장 우수한 성과를 보였으며, Gemini 2.5 Pro는 56%의 성공률을 기록했습니다. GPT-5는 28%로 상대적으로 낮은 성과를 보였습니다.
-
CAPTCHAs는 웹사이트에서 인간과 자동화된 트래픽을 구분하기 위해 사용됩니다. 이번 연구는 현대 AI 에이전트가 이런 CAPTCHAs에 어떻게 대응하는지를 탐구합니다.
-
reCAPTCHA v2 과제는 정적, 재로드 및 크로스-타일의 세 가지 유형으로 나누어지며, AI 모델들의 성공률은 각 유형에 따라 달라졌습니다. 모든 모델은 정적 과제에서 상대적으로 높은 성과를 보였고 크로스-타일에서 가장 낮은 성과를 보였습니다.
-
Claude Sonnet 4.5는 정적 과제에서 47.1%의 성공률을 기록했으며, 재로드에서는 21.2%, 크로스-타일에서는 0%의 성공률을 기록했습니다. GPT-5는 정적에서 22.7%, 재로드에서는 2.1%, 크로스-타일에서는 1.1%의 성공률을 기록했습니다.
-
GPT-5의 낮은 성과는 지나치게 많은 사고와 계획으로 인해 발생했습니다. 과제 수행 중 과도한 수정 및 교정 작업은 타임아웃 장애를 증가시켰으며, 이는 느린 사고 과정과 결합되어 성과를 저해했습니다.
-
모든 모델은 재로드 및 크로스-타일 과제에서 상대적으로 낮은 성과를 보였습니다. 재로드 과제는 모델이 새로운 이미지가 나타날 때 이를 오류로 인식하여 이전 클릭을 반복하게 하는 경향이 있었으며, 크로스-타일 과제는 불완전하거나 경계에 걸쳐 있는 객체를 식별하는 데 어려움을 겪었습니다.
-
더 많은 사고가 항상 더 나은 결과를 가져오지 않는다는 점을 개발자와 연구자들이 배울 수 있습니다. 빠르고 효율적인 판단과 결정을 가능하게 하는 것이 깊은 사고만큼이나 중요합니다.
-
실험은 Google reCAPTCHA 데모 페이지를 사용하여 수행되었으며, 각 AI 에이전트는 최대 5번의 다양한 CAPTCHA 과제를 시도하도록 설정되었습니다. 실험 디자인은 AI 에이전트가 브라우저 기반 작업을 수행할 수 있게 하는 오픈소스 프레임워크를 사용했습니다.
