메인 콘텐츠로 건너뛰기
조회수 1

멀티모달 AI, 왜 “개는 개인데…”에서 멈출까? WorldVQA 충격

요약

멀티모달 AI, 왜 “개는 개인데…”에서 멈출까? WorldVQA 충격

멀티모달 모델은 이제 사진을 보고 설명도 하고, 코드도 짜고, 웹도 돌아다니는 “만능 비서”처럼 보입니다. 그런데 정작 현실에서 자주 필요한 기본기, 즉 사진 속 대상을 ‘정확한 이름’으로 맞히는 능력은 생각보다 처참합니다. Moonshot AI 연구팀이 공개한 WorldVQA 벤치마크에서 최고 모델조차 정답률 50%를 넘지 못했다는 결과가 나온 이유입니다1.

이 글에서는 WorldVQA가 무엇을 다르게 측정하는지, 왜 최신 멀티모달 모델들이 “일반명사 함정”에 빠지는지, 그리고 이 문제가 AI 에이전트·현업 적용에서 어떤 리스크로 이어지는지를 한 번에 정리해보겠습니다.

WorldVQA 벤치마크가 던진 질문: “정확한 이름을 말해봐”

WorldVQA는 9개 분야에 걸친 3,500개의 이미지-질문 쌍으로 구성되어, 자연·건축·문화·예술·브랜드·스포츠·유명 인물 등 현실 세계의 시각 엔티티(개체) 인식을 폭넓게 테스트합니다1.

핵심은 방식입니다. 기존 벤치마크가 “맞혀봐”에 가까운 객관식(또는 그 변형)을 섞어 두는 경우가 많았다면, WorldVQA는 정답을 ‘구체적인 고유명/정식 명칭’으로 요구합니다1. 이를테면 사진을 보고 “개”가 아니라 ‘비숑프리제’ 같은 수준을 요구하는 식이죠. 체감 난이도가 급상승하는 지점이 바로 여기입니다.

최고 모델도 47%대…50% 벽이 깨지지 않은 이유

결과는 냉정합니다. WorldVQA에서 최고 점수는 Google Gemini 3 Pro 47.4%, 그 다음이 Moonshot AI Kimi K2.5 46.3%였고, Claude Opus 4.5 36.8%, OpenAI GPT-5.2는 28% 수준에 그쳤습니다1. 말 그대로 “누가 1등이냐”보다 “왜 다 같이 낮냐”가 더 중요한 판입니다.

이 수치가 시사하는 바는 단순합니다. 멀티모달 모델이 이미지를 ‘본다’고 해서, 그 이미지 속 대상을 세상에서 통용되는 정확한 이름으로 연결하는 능력까지 자동으로 따라오진 않는다는 것입니다. 특히 드물게 등장하는 자연물·문화 요소 같은 “롱테일(희귀) 엔티티”에서 약점이 크게 드러났다고 합니다1.

“개”와 “꽃”은 말하는데, 비숑과 품종·품종명은 못 말하는 함정

사람 입장에서는 이게 가장 답답합니다. 모델이 사진을 보고 “개가 있네요”, “꽃입니다” 정도로는 잘 말합니다. 그런데 사용자가 진짜 원하는 건 보통 그 다음이죠. “무슨 품종이야?”, “이 꽃 이름이 뭐야?”, “이 건물은 어디야?” 같은 질문 말입니다.

WorldVQA 결과에서도 많은 모델이 일반적인 용어(상위 개념)에서 멈추는 경향을 보였다고 합니다1. 이유는 여러 가지가 겹칩니다.

첫째, 학습 데이터의 세계관이 “인터넷에서 많이 보이는 것” 중심으로 기울어져 있습니다. 브랜드나 스포츠처럼 노출이 잦은 카테고리는 상대적으로 잘 맞히지만, 자연·문화처럼 지역성/희귀성이 큰 대상은 급격히 무너집니다1.

둘째, 이건 단순히 “이미지를 헷갈려서”만은 아닙니다. 연구팀은 모델의 약점이 시각적 혼동보다 지식 부족(학습에서 거의 못 본 엔티티)에 가깝다는 점을 검증했다고 밝혔습니다1. 즉, 눈이 나쁜 게 아니라 ‘사전에 이름이 없다’에 가까운 문제일 수 있습니다.

더 위험한 문제: 모델이 스스로를 너무 믿는 ‘과신(Overconfidence)’

정답률이 낮은 것도 문제지만, 더 골치 아픈 건 따로 있습니다. 모델이 틀리면서도 확신에 차 있다는 점입니다.

WorldVQA에서는 모든 모델이 실제 성능보다 답변 정확도를 높게 잡는 과신 현상을 보였고, 예시로 Gemini 3 Pro는 많은 질문에서 “거의 확실” 수준의 확신을 표시했지만 실제 정답률은 절반 미만이었다고 합니다1. 이건 단순한 UX 문제가 아닙니다. 현업에서 멀티모달 모델을 에이전트로 붙이면, 확신에 찬 오답이 곧바로 실행(구매, 등록, 게시, 보고서 반영)으로 이어질 수 있습니다.

최근 연구들도 비슷한 경고를 합니다. 예컨대 LLM이 불확실할 때 “모르겠다”를 학습시키는(즉, abstain/refuse를 능력으로 가르치는) 연구 흐름은, 모델 신뢰성이 단순 성능만으로 해결되지 않는다는 신호로 읽힙니다2. 멀티모달에서도 결국 같은 문제로 이어집니다. “맞히는 능력”과 “모를 때 멈추는 능력”이 동시에 필요합니다.

AI 에이전트 시대에 왜 ‘시각 엔티티 인식’이 기본기인가

“이게 뭐 그렇게 중요해?”라고 느낄 수도 있는데, AI가 채팅을 넘어 행동하는 에이전트가 될수록 중요도는 오히려 커집니다.

현실 업무의 많은 장면은 ‘이름 맞히기’로 시작합니다. 매장에서 제품을 인식해 재고를 확인하거나, 현장 사진에서 장비 모델명을 읽어 점검 이력을 조회하거나, 스포츠/문화 콘텐츠에서 특정 인물·팀·로고를 정확히 식별해 메타데이터를 붙이는 일이 그렇습니다. 여기서 “대충 비슷한 것”은 자동화에 치명적입니다. 자동화는 정확도를 전제로 굴러가니까요.

그래서 WorldVQA 같은 벤치마크 공개는 의미가 큽니다. 잘 나온 성능 자랑보다, 어떤 기본기가 아직 허술한지를 정밀하게 드러내 주기 때문입니다1. 데이터셋과 지표가 공개된 만큼, 이후 모델들이 이 50% 벽을 어떻게 깨는지도 중요한 관전 포인트가 될 겁니다1.

시사점은 분명합니다. 지금 멀티모달 모델이 “똑똑해 보이는” 순간이 많아도, 현실 세계의 긴 꼬리(희귀 엔티티)와 신뢰성(과신 억제) 앞에서는 아직 갈 길이 멉니다. 만약 여러분이 멀티모달 AI를 제품/업무에 붙일 계획이라면, 데모 영상보다 먼저 “우리 도메인의 엔티티를 구체적으로 부를 수 있나?”를 테스트해보세요. 그리고 정답률만 보지 말고, 틀릴 때 얼마나 자신만만한지까지 함께 보셔야 합니다.

참고

1최고의 멀티모달 모델들도 기본적인 시각 엔티티 인식에서 50퍼센트를 넘지 못합니다.

2When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

멀티모달 AI, 왜 “개는 개인데…”에서 멈출까? WorldVQA 충격

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.