최고 AI도 유아 수준 시각 과제에 무너진 이유와 해법
우리는 종종 “AI가 사람보다 똑똑하다”는 말을 듣습니다. 시험 문제를 풀고, 논문을 요약하고, 코드를 짜는 모습만 보면 그 말이 그럴듯하죠. 그런데 최근 연구는 정반대의 장면을 보여줍니다. 최신 멀티모달 AI 모델(이미지+텍스트를 함께 다루는 모델)조차도 유아가 ‘말 없이’ 처리하는 기본 시각 과제에서 크게 헤맨다는 결과가 나왔습니다.1
이 글에서는 새로 공개된 BabyVision 벤치마크가 무엇을 재는지, 왜 “언어 중심” 구조가 시각을 망치는지(언어 병목 현상), 그리고 앞으로 어떤 방향의 멀티모달 모델이 이 한계를 넘을 가능성이 있는지까지, 쉽고 재미있게 정리해 보겠습니다.
BabyVision 벤치마크: ‘말’ 말고 ‘눈’만으로 시험 본다면
AI의 시각 성능을 재는 테스트는 많지만, 의외로 “언어로 요령을 부릴 수 있는” 문제도 섞여 있습니다. 예컨대 사진에 ‘사과’가 보이면 “사과”라고 말하는 건 시각이라기보다 학습된 개념-단어 매칭에 가깝죠.
BabyVision은 이 지점을 정면으로 겨냥합니다. 유아가 언어를 완전히 배우기 전부터 갖추는 초기 시각 능력—미세한 차이 구별, 선 추적, 공간 감각, 회전·반사 패턴 감지—같은 것만을 묻도록 설계된 벤치마크입니다. 총 388개 문항이 4개 큰 영역과 22개 세부 유형으로 구성됩니다.1
한마디로, “이건 말로 설명 잘한다고 풀리는 시험이 아니라, 진짜로 ‘보여야’ 풀리는 시험”에 가깝습니다.
충격 결과: 성인 94점대, 최고 AI는 49점대
결과는 꽤 드라마틱합니다. 성인 인간 평균 정확도는 94.1%였는데, 테스트된 최상급 멀티모달 모델 중 최고 성과를 낸 Gemini-3-Pro-Preview는 49.7%에 그쳤습니다.1
이건 단순히 “사람이 더 낫다” 수준이 아니라, 격차의 성격이 특이합니다. 지식형 벤치마크(대학 수준 멀티모달 문제 등)에서는 90%에 가까운 점수를 내는 모델들이, 정작 “선이 어디로 이어지지?”, “이 블록 뒤에 몇 개가 숨었지?” 같은 기초 과제에서 우수수 무너진다는 뜻이니까요.2
연구진이 아동 그룹과 비교한 파일럿 테스트에서도 대부분 모델이 평균 3세 수준에 못 미쳤고, Gemini-3-Pro-Preview만 그 그룹을 앞섰지만 평균 6세 아동보다도 약 20%p 낮았습니다.1
유아는 되는데 AI는 못 하는 시각 작업은 무엇일까?
BabyVision이 노리는 문제들은, 사람에게는 “그냥 눈으로 보면 되는” 것들입니다. 하지만 모델에게는 생각보다 잔인합니다.
예를 들어 미세한 시각적 구별은, 비슷한 무늬들 사이에서 아주 작은 경계선 차이나 굴곡 하나를 잡아내야 합니다. 사람은 ‘한 번 훑고’ 바로 찾아내는데, 모델은 비슷해 보이는 후보를 말로 그럴듯하게 설명하다가 정작 정답의 미세한 윤곽을 놓칩니다.
또 미로 길 찾기나 선 추적 문제는 더 어렵습니다. 교차점이 나오거나 선이 겹치면, 사람이 가진 “연속성 감각”이 중요해지는데 모델은 중간에 정체성을 잃고(“내가 따라가던 선이 이 선이 맞나?”) 엉뚱한 길로 갈아타곤 합니다. 이런 현상은 연구에서 ‘manifold identity’가 무너진다고 표현됩니다.1
공간 지각(가려진 3D 블록 수 세기 등)도 마찬가지입니다. 사람은 머릿속에서 입체를 굴려보듯 상상하는데, 많은 모델은 그 변환 자체를 안정적으로 유지하지 못합니다.1
원인은 ‘언어 병목 현상’: 보는 걸 말로 바꾸는 순간, 시각이 새나간다
이 연구가 던지는 핵심 메시지는 의외로 단순합니다. 지금의 멀티모달 AI는 ‘이미지 → (압축) → 텍스트적 표현’으로 바꾼 뒤에야 본격 추론을 시작하는 경우가 많고, 그 과정에서 중요한 시각 정보가 손실된다는 겁니다.1
이를 연구진은 “verbalization bottleneck(언어화 병목)”이라고 부릅니다.1
말로 바꾸기 쉬운 시각 정보(예: “빨간 차”, “도로 위”)는 살아남습니다. 하지만 말로 옮기기 어려운 정보—정확한 곡선의 굴곡, 경계의 미세한 흔들림, 교차점에서의 연결 관계, 회전·반사에 따른 패턴 규칙—는 언어로 번역되는 순간 ‘대충’ 뭉개지기 쉽습니다.
쉽게 비유하면, 초고화질 사진을 흑백 ASCII 아트로 바꿔놓고 “이 사진의 표정이 뭐야?”를 묻는 느낌에 가깝습니다. 추론 능력이 아무리 좋아도, 입력 자체가 새면 답은 흔들릴 수밖에 없죠.
해법은 ‘통합 멀티모달’: 보고-생각하고-그리기까지 한 덩어리로
그럼 답은 “더 똑똑한 언어 모델”일까요? 연구진의 제안은 방향이 다릅니다. 시각을 언어로 번역해 붙이는 방식이 아니라, 시각 처리와 생성(그리기)을 더 밀접하게 통합한 ‘통합 멀티모달 모델’이 병목을 줄일 잠재력이 있다고 봅니다.13
흥미로운 장치가 하나 더 있습니다. BabyVision-Gen이라는 확장 과제인데, 말로 정답을 고르는 대신 “이미지로 표시하거나 경로를 그려서” 답하게 하는 방식입니다.13 사람도 미로 문제는 말로 설명하기보다 손가락으로 그려가며 풀 때가 많잖아요. 연구진은 그 ‘외부화(그리기)’가 시각 추론에 도움이 된다고 보고, 모델 평가 방식 자체를 넓히려 합니다.13
즉, 미래의 시각 지능은 “이미지를 보고 말로 설명하는 AI”가 아니라, “보고, 머릿속에서 유지하고, 필요하면 그려서 검증하는 AI”에 가까울 수 있다는 얘기입니다.
시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...
BabyVision이 재미있는 이유는, AI를 깎아내리기 위해서가 아니라 “우리가 AI를 어디에 믿고 쓰면 안 되는지”를 아주 또렷하게 보여주기 때문입니다. 지식형 문제에서 강한 모델이라도, 미세한 윤곽·연속 추적·입체 상상처럼 ‘기초 시각’이 필요한 업무에서는 실수가 쉽게 나올 수 있습니다.
실무적으로는 이런 체크가 도움이 됩니다. 문서/차트 읽기처럼 언어화가 쉬운 시각 작업인지, 아니면 미로·배선도·도면 검수처럼 연속성과 공간감이 핵심인 작업인지 먼저 구분해 보세요. 후자라면 현재 세대 멀티모달 모델은 “그럴듯한 설명”을 하더라도 결과 검증 장치를 반드시 붙여야 합니다.
마지막으로 BabyVision은 GitHub에 공개되어 진단 도구처럼 활용될 예정입니다.1 앞으로 “우리 모델이 진짜로 본 건지, 말로 때운 건지”를 가려내는 기준점이 생긴다는 뜻이니, 멀티모달 AI의 다음 경쟁은 의외로 ‘유아의 시각’에서 시작될지도 모르겠습니다.
참고
1BabyVision: Visual Reasoning Beyond Language
3Even the best AI models fail at visual tasks toddlers handle easily