AGI에 대한 테스트는 해결에 더 가까워지고 있지만 결함이 있을 수 있습니다.

2024-12-10

인공지능 일반 지능(AGI)에 대한 잘 알려진 테스트가 해결에 가까워지고 있지만, 테스트의 설계상 결함을 나타낼 수 있다고 창시자들이 지적함.
2019년 프랑수아 숄레가 ARC-AGI 벤치마크를 도입, AI 시스템이 훈련 데이터 밖의 새로운 기술을 습득하는지 평가하기 위해 설계됨.
현재까지 ARC-AGI의 최고의 AI 성능은 약 3분의 1의 작업만 해결할 수 있었음.
숄레는 대형 언어 모델(LLM)이 실제 "추론"을 수행할 수 없다고 비판함.
LLM은 통계적 기계로 기억에 의존하여 학습하므로 일반화에 어려움을 겪음.
2023년 6월, 숄레와 Zapier 공동 창립자 마이크 크누프가 ARC-AGI를 이길 수 있는 오픈소스 AI를 개발하기 위한 100만 달러 상금 대회를 개최함.
17,789개의 제출물 중 최고 점수는 55.5%로, 2023년 최고 점수보다 약 20% 높았지만, 인간 수준의 기준인 85%에는 미치지 못함.
크누프는 ARC-AGI가 일반 지능에 유용한 신호를 많이 담고 있지 않다고 언급.
ARC-AGI는 AI가 다양한 색의 사각형 모음을 사용해 올바른 "답" 그리드를 생성하도록 요구하는 퍼즐같은 문제로 구성됨.
제2세대 ARC-AGI 벤치마크를 2025년에 출시할 계획 중.
정의상 결함을 보완하여 새로운 문제 해결에 대한 AI 연구 커뮤니티의 노력을 촉진할 계획.

3techcrunch.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.