AI TOP 100 대회 출제 원칙과 평가 기준 요약
AI TOP 100 대회 출제 개요 노트
대회 개요와 목표
AI TOP 100은 "어떤 사람이 AI를 잘 쓰는가?"를 평가하기 위해, 결과물보다 사람·AI 협업 과정에 초점을 둔 대회다.
단순 프롬프트 장인이 아니라, 문제를 스스로 정의하고 AI를 동료처럼 활용해 현실 문제를 끝까지 해결하는 사람을 찾는 것이 목표였다.
그래서 참가자가 어떤 난관을 어떻게 AI와 나눠 해결하고, AI의 한계를 어떻게 인지·보완했는지까지 평가에 포함했다.
출제 원칙과 난이도·공정성
모든 문제는 사람-분석 → AI-시도 → 사람-검증이 반복되는 Human-in-the-loop 구조가 되도록 설계되었고, AI 혼자 풀 수 있는 '딸깍 문제'는 배제했다.
"문제는 직관적이지만, 풀이는 깊게"라는 원칙 아래, 복잡한 문서·표, 멀티 스텝 추론, 강한 검증 요구 등 AI의 약점을 심어 사람의 개입이 드러나게 했다.
하나의 문제 안에 Easy-Medium-Hard 문항을 두어 난이도 사다리를 만들고, 쉬운 건 객관식, 상위권을 가르는 킬러 문항은 주관식으로 두었다.
다양한 내부·알파·베타 테스트로 최신 모델 성능을 점검하고, 모델이 너무 잘 풀어버리면 문제 구조와 난이도, 점수 배점을 다시 캘리브레이션했다.
참가자별 다른 데이터셋과 섞인 보기 순서 등으로 어뷰징을 어렵게 만들고, "부정행위가 비효율적인 구조" 자체를 설계했다.
본선 직전 더 강력한 모델이 공개되었지만, Human-in-the-loop·검증 구조가 탄탄한 킬러 문항들은 여전히 사람의 분석·검증 능력을 요구했다.
출처
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
