중국 AI, ‘실어증’ 진단받은 이미지 모델을 스스로 고치다

“해변은 왼쪽, 파도는 오른쪽.”
사진을 보여주면 AI는 정확히 이렇게 설명합니다.

그런데 같은 AI에게
“해변은 왼쪽, 파도는 오른쪽으로 보이게 그림을 그려줘”
라고 하면, 정작 생성된 이미지에선 왼쪽과 오른쪽이 뒤바뀌어 있습니다.

이상하지 않나요?
보는 건 잘하는데, 막상 그린다고 하면 틀려버립니다.

중국 연구진은 이 어색한 현상을 인간의 뇌 질환 중 하나인 “전도성 실어증(Conduction Aphasia)”에 빗대어 설명했습니다. 말을 이해는 하지만 정확히 따라 하지 못하는 상태죠¹. 그리고 이 문제를 해결하기 위해, 멀티모달 AI가 스스로 자신의 약점을 진단하고 고치는 프레임워크 ‘UniCorn’을 개발했습니다¹².

이 글에서는 다음 내용을 다룹니다.

왜 최신 멀티모달 AI가 “실어증”에 비유될 정도로 어긋나는지
중국 연구진이 만든 자기 치유 프레임워크 UniCorn은 어떻게 작동하는지
새로운 벤치마크 UniCycle로 무엇을 검증했는지
아직 해결되지 않은 약점과, 앞으로 이 기술이 어디까지 갈 수 있을지

AI 이미지 생성에 관심 있는 분, 멀티모달 모델의 한계를 이해하고 싶은 분이라면 끝까지 볼 가치가 충분합니다.

AI도 실어증에 걸릴까? 멀티모달 모델의 이상한 간극

요즘 멀티모달 AI 모델은 텍스트도 이해하고, 이미지를 분석하고, 심지어 이미지를 직접 만들어내기도 합니다. 문제는 “이해”와 “생성”이 놀랄 만큼 따로 논다는 점입니다.

연구진이 든 대표적인 예는 이런 식입니다¹².

실제 사진을 보여주면
“해변이 왼쪽, 파도가 오른쪽에 있다”고 정확히 묘사한다.
그런데 같은 내용으로 이미지를 생성하라고 하면
해변과 파도의 위치가 뒤집힌 이미지를 그린다.

즉, 보고 말하는 능력과 말을 듣고 그리는 능력 사이에 일관성이 없습니다.
연구진은 이 현상을 “전도성 실어증”에 비유합니다.

전도성 실어증 환자는 말을 이해하지만, 같은 문장을 제대로 따라 말하지 못합니다. 인간에게는 뇌 속의 연결 문제이고, AI에게는 “이해 모듈”과 “생성 모듈” 사이의 단절에 가깝습니다.

기존 멀티모달 연구에서도

이해 전용 모델
생성 전용 모델
이해+생성을 억지로 붙인 하이브리드 구조 (예: AR+Diffusion, 세계 모델 기반 자율주행 등³⁴⁵)

이런 방식은 많았지만, “같은 모델 안에서 이해와 생성의 일관성을 강제로 재정렬하는 시도”는 상대적으로 부족했습니다.

UniCorn의 출발점은 단순합니다.

“이미지를 평가하는 능력이 더 뛰어나다면, 그 능력으로 자기 그림을 직접 채점하고 고치게 만들면 되지 않을까?”¹

이 아이디어를 본격적으로 구현한 것이 바로 UniCorn입니다.

UniCorn의 핵심: 하나의 모델이 제안자·해결자·판사로 분열된다

UniCorn의 재미있는 점은, 하나의 멀티모달 모델이 세 가지 역할을 동시에 맡는다는 점입니다¹².

연구진은 기본 모델(BAGEL)을 가져와 이것을 세 가지 페르소나로 쪼갭니다.

Proposer(제안자) – 문제 내는 AI
Solver(해결자) – 그림 그리는 AI
Judge(판사) – 그림을 평가하는 AI

하지만 실제로는 세 모델이 아니라, 파라미터를 공유하는 하나의 모델이 모드만 바꿔 가며 세 역할을 수행합니다.

1단계: 자기 데이터 만들기 – “나 스스로 문제를 내고 풀어본다”

먼저 Proposer 모드가 작동합니다.
여기서는 사람이 아닌 AI가 스스로 어려운 텍스트 프롬프트를 만들어냅니다¹².

다양한 스타일, 복잡한 장면, 여러 객체, 관계, 조건(예: “빨간 모자를 쓴 소년이 왼쪽, 파란 우산 든 여자는 오른쪽”) 같은
“헷갈리기 쉬운” 상황을 AI가 일부러 설계합니다.

그다음 Solver 모드가 동일 프롬프트로 8장의 서로 다른 이미지를 생성합니다.
파라미터를 다양하게 바꿔, 같은 문장을 여러 방식으로 해석해 그려보는 과정입니다².

마지막으로 Judge 모드가 나와, 각 이미지를 0~10점으로 채점하고, 왜 그 점수를 줬는지 이유까지 설명합니다¹².

이렇게 해서 다음과 같은 데이터가 쌓입니다.

프롬프트
그에 대한 다양한 후보 이미지들
각 이미지에 대한 점수와 상세 평가 코멘트

즉, “나 스스로 문제를 내고 → 여러 답안을 내고 → 스스로 채점하고 피드백까지 적어둔” 자기진단 데이터셋이 만들어지는 겁니다.

흥미로운 점은 이 과정이 외부 데이터셋이나 더 강한 교사 모델 없이 진행된다는 것입니다¹².
GPU 8장(H800 기준)으로 약 7시간 정도의 파인튜닝이면 전체 과정이 끝납니다¹². 멀티모달 대형 모델 연구에서 이 정도 리소스로 의미 있는 성능 향상을 내는 건 꽤 효율적인 편에 속합니다.

UniCycle 벤치마크: “네가 그린 그림, 너 스스로 이해하니?”

그렇다면 이런 자기 채점·자기 훈련이 진짜 “이해-생성 일관성”을 높였는지 어떻게 확인할 수 있을까요?

연구진은 이를 위해 UniCycle이라는 새로운 벤치마크를 만들었습니다¹².

구조는 매우 직관적입니다.

텍스트 → 이미지
- 모델이 텍스트 설명을 보고 이미지를 생성합니다.
이미지 → 질의응답
- 다시 그 이미지에 대해 모델에게 질문을 던집니다.
  (예: “소년은 어느 쪽에 서 있나요?”, “고양이는 몇 마리인가요?”)
정답 검증
- 외부 평가 모델이, 모델의 답변이 원래 텍스트 설명과 얼마나 잘 맞는지를 점수화합니다¹.

즉, 이렇게 묻는 셈입니다.

“너, 방금 네가 그린 그림을 제대로 이해하고 있어?”

이건 단순한 이미지 품질이 아니라,
“텍스트로 생각한 내용 → 이미지로 그린 결과 → 다시 텍스트로 환원된 이해”
이 세 단계가 서로 얼마나 잘 맞아 떨어지는지 보는, 일종의 사이클(consistency) 검사입니다.

실험 결과 UniCorn은 UniCycle에서 베이스 모델보다 거의 10점 가까이 높은 점수를 얻었습니다¹². 이는 “그럴듯하게만 그리는 모델”이 아니라 “스스로 무엇을 그렸는지 알고 있는 모델”에 조금 더 가까워졌다는 신호로 볼 수 있습니다.

복잡한 이미지 생성에서 UniCorn이 보여준 성과

UniCorn은 중국 연구진이 자체 개발한 멀티모달 베이스 모델 BAGEL 위에 구축되었습니다²⁵. 그 위에서 여섯 가지 벤치마크를 테스트했는데, 전반적으로 기존 모델 대비 꾸준한 성능 향상을 보여줍니다¹².

특히 눈에 띄는 부분은 다음과 같습니다.

첫째, 구조화된 이해가 필요한 과제에서 강세

여러 개의 객체가 등장하고, 각 객체의 위치, 색, 속성, 관계가 섞여 있는 장면을 정확히 생성하고 이해해야 하는 벤치마크에서 성능이 크게 올랐습니다.
객체 수를 세거나 3D 공간 배치를 이해하는 과제에서 특히 개선 폭이 컸습니다¹².

둘째, 지식 기반 이미지 생성 능력 향상

문화적·과학적 배경지식이 필요하거나, 특정 개념을 시각적으로 제대로 풀어내야 하는 과제에서도 향상이 확인됐습니다¹².
단순히 “예쁜 이미지”를 생성하는 수준을 넘어, 내용이 맞는 그림에 좀 더 가까워진 셈입니다.

셋째, 복잡한 장면 생성 벤치마크 DPG에서 GPT-4o를 능가

여러 물체와 속성이 얽힌 복잡한 장면을 평가하는 DPG 벤치마크에서는, UniCorn이 GPT-4o보다 높은 점수를 기록했습니다¹².
이는 “한 모델 안에 이해와 생성이 통합된 구조”가, 복잡한 장면에서는 꽤 강력한 전략이 될 수 있음을 보여줍니다.

흥미로운 결과 하나는, 이 모든 개선이 외부 교사 모델 없이, 자기 셀프플레이(self-play)로만 이뤄졌다는 점입니다.

연구진이 테스트 삼아, 평가자인 Judge 역할에 더 거대한 멀티모달 모델인 Qwen3‑VL‑235B를 투입했을 때를 비교해 보았습니다¹². 상식적으로는 “더 똑똑한 선생님이 채점하면 더 잘 배워야” 할 것 같은데, 결과는 정반대였습니다.

전체 성능은 거의 늘지 않았고,
UniCycle 같은 “일관성” 벤치마크에선 오히려 점수가 떨어졌습니다¹².

연구진의 해석은 이렇습니다.

“학생 모델이, 선생님 모델의 복잡한 평가 패턴을 제대로 따라잡지 못한다.”¹

즉, 내가 이해할 수 있는 기준으로 나를 평가하는 자기 지도(self-play)가,
너무 강력하고 복잡한 타인(거대 교사 모델)의 기준을 억지로 따라가는 것보다 더 효과적이었다는 겁니다.

아직 못 고친 약점들: 부정(negation)과 정확한 카운팅

물론 UniCorn이 만능은 아닙니다. 연구진도 한계를 꽤 솔직하게 인정합니다.

첫째, 부정(negation) 처리의 어려움

프롬프트에 “~하지 않은”, “~을 빼고”, “A는 있지만 B는 없는” 같은 조건이 들어가는 경우입니다. 예를 들어:

“고양이가 없는 침대”
“하늘에는 새가 없고, 땅에만 새가 있다”

이런 부정 명령어가 들어간 과제에서는, UniCorn이 눈에 띄는 개선을 보여주지 못했습니다¹².

이는 멀티모달 모델 전반에서 공통적으로 어려운 부분인데,
부정 조건을 만족하는지 여부를 스스로 평가하기 위한 좋은 신호를 만들기 어렵기 때문입니다. “없는 것”을 확인하는 건 “있는 것”보다 훨씬 까다롭습니다.

둘째, 정확한 객체 수 세기

재미있는 점은, 앞서 “객체 수 세기에서 좋아졌다”고 했는데,
“완벽하게 정확한 카운팅”을 요구하는 과제에서는 여전히 성능 한계가 있습니다¹².

대략적인 개수는 잘 맞추는데,
“정확히 7마리”, “정확히 11개” 같은 정밀 카운팅에서는 아직 안정적이지 않다는 뜻에 가깝습니다.

연구진은 이 두 영역에 대해, 현재의 자기 셀프플레이 구조만으로는 충분한 감독 신호를 제공하기 어렵다고 설명합니다².
앞으로는 보다 정교한 데이터 구성이나, 반복적 개선(iterative self-play) 구조가 필요하다고 보고 있습니다.

셋째, 이해 능력은 그대로, 생성만 더 세졌다

UniCorn의 가장 중요한 목표는 이해와 생성의 균형을 맞추는 것입니다.
그런데 실험 결과를 보면:

이미지 생성 관련 점수는 눈에 띄게 상승
순수 이해 벤치마크 점수는 “대체로 유지” 수준¹²

즉, 생성 능력은 확실히 업그레이드됐지만, 이해력 자체가 크게 늘어난 것은 아니다라는 이야기입니다.
다만 중요한 점은, “생성 데이터만으로 모델을 파인튜닝하면 이해 능력이 무너진다”는 것이 기존 연구에서 잘 알려져 있는데, UniCorn은 이해 능력을 무너지지 않게 유지하면서 생성 쪽만 끌어올렸다는 점에서 의미가 있습니다¹².

마지막으로, 현재 UniCorn 학습은 한 번 돌리고 끝입니다.

한 번 자기 데이터 수집
그걸로 파인튜닝
종료

즉, “향상된 모델로 다시 데이터 수집 → 재훈련”이라는 반복 루프가 아직 구현되지 않았습니다¹². 연구진은 이것을 차기 과제로 명시하고 있습니다. 이 부분이 구현되면, 이해와 생성이 함께 상승하는 “연쇄 업그레이드”가 가능해질 여지가 있습니다.

앞으로의 시사점: ‘자기 치유’ AI가 바꿀 것들

UniCorn 연구는 단순히 이미지 AI의 한 기법을 넘어서, 몇 가지 흥미로운 시그널을 줍니다.

첫째, “더 큰 교사 모델”이 항상 정답은 아니다

Qwen3‑VL‑235B 같은 초대형 모델을 심판으로 세웠을 때, 성능이 거의 오르지 않거나 오히려 떨어진 것은 꽤 상징적입니다¹².

모델이 소화할 수 있는 수준의 피드백
자신이 가진 표현력과 맞닿아 있는 평가 기준

이 두 가지가 갖춰져야 진짜 학습이 된다는 뜻입니다.
앞으로의 멀티모달·AGI 연구에서는 “얼마나 큰 교사를 붙였나”보다 “얼마나 잘 자기 자신을 활용하게 했나”가 더 중요한 설계 포인트가 될 수 있습니다.

둘째, 이해와 생성의 간극을 줄이는 방향으로 연구가 재편되고 있다

ByteDance의 NextFlow, EMMA, UniDrive‑WM 같은 최근 논문들을 보면,
“하나의 통합 구조 안에서 이해·계획·생성을 동시에 잘하게 만들려는 시도”가 빠르게 늘고 있습니다³⁴⁵.

UniCorn은 그 중에서도 “자기 진단·자기 치유”라는 접근으로 이해-생성 간극을 직접 겨냥했다는 점에서 의미가 큽니다.

셋째, 실용적인 관점에서의 활용 아이디어

당장 UniCorn을 그대로 쓸 수 없다고 해도, 우리에게 줄 수 있는 실용적인 힌트는 분명합니다.

이미지 생성 서비스를 운영한다면
- 내부적으로 자기 평가 루프를 붙여, 모델이 낸 이미지와 프롬프트의 일관성을 상시 모니터링하고 개선하는 구조를 설계할 수 있습니다.
프롬프트 엔지니어링 관점에서는
- 부정 표현(“없다”, “제외”, “~하지 않은”)보다는
  “포함할 것만 명시하고, 나머지는 프레임으로 묶어 제한하는 방식”이 여전히 유리합니다.
  (예: “방 안에는 오직 침대와 책상만 있다”처럼)
멀티모달 제품 기획 차원에서는
- 이해와 생성의 간극이 존재한다는 것을 전제로 UX를 설계해야 합니다.
- 생성된 이미지에서 중요한 정보가 사라질 수 있음을 감안하여,
  “생성 → 검증 → 수정”의 루프를 사용자 경험 안에 녹여 넣는 접근이 필요합니다.

개인적으로는, UniCorn이 보여준 가장 큰 메시지가 이거라고 봅니다.

“AI에게 모든 답을 외부에서 주입하기보다,
자기 행동을 스스로 평가하고 고치는 루프를 설계하는 것이
진짜 ‘지능’에 더 가까운 길일 수 있다.”

실제 인간도 그렇죠.
선생님의 가르침도 중요하지만, 결국 성장의 속도를 결정하는 건 스스로 문제를 만들고, 풀고, 틀린 이유를 돌아보는 자기 피드백 루프입니다.

멀티모달 AI가 “보는 것”과 “그리는 것”을 하나의 사고 과정으로 통합해 가는 지금, UniCorn 같은 자기 치유 프레임워크는 앞으로 더 자주 등장하게 될 것입니다.

이 흐름을 이해하고 있는 것만으로도, 앞으로의 AI 도구를 어떻게 써야 더 잘 쓸 수 있을지에 대한 감각이 훨씬 좋아질 겁니다.

참고

¹Chinese researchers diagnose AI image models with aphasia-like disorder, develop self-healing framework

²KI-Modelle sollen lernen, ihre eigenen Schwächen zu erkennen und zu beheben