GLM-Image: 오토리그레시브×디퓨전 하이브리드 이미지 생성 모델 정리

핵심 요약

GLM-Image는 LLM 계열 오토리그레시브 모델과 디퓨전 디코더를 결합해, 지식이 많이 들어간 이미지와 텍스트 렌더링에 강한 고해상도 이미지 생성 모델이다.

텍스트 이해·지식 표현은 AR 모듈이, 디테일·질감·고해상도는 디퓨전 디코더가 맡는 구조로, 일반 이미지 품질은 최신 확산계 모델과 비슷하면서 글자·복잡한 정보 표현에서 우위를 보인다.

스타트업 관점에서는 "컨텐츠의 정보량과 정확도"가 중요한 이미지 서비스(교육, 업무 문서, 광고, 디자인, 전자상거래 등)에 특히 적합한 아키텍처 방향을 제시한다.

glm-image-showcase-new

GLM-Image의 다양한 이미지 생성 및 이해 능력을 보여주는 예시 모음입니다. 실제 사진, 일러스트, 동물, 자연, 도시 풍경 등 여러 장르의 이미지를 생성하고 해석할 수 있음을 알 수 있습니다.

GLM-Image가 겨냥하는 문제와 포지셔닝

최근 이미지 생성은 대부분 디퓨전(VAE+U-Net/DiT) 구조인데, 이 방식은 예쁘게 그리는 데는 강하지만 "복잡한 지시를 정확히 반영"하거나 "지식이 많이 들어간 이미지(다이어그램, 포스터, 표, 긴 문장)"에서는 자주 실패한다.

GLM-Image는 이 지점을 정면으로 겨냥한다. 이미지 전체의 의미 구조, 긴 텍스트, 구체적인 개념·관계의 표현은 LLM 계열 오토리그레시브 모듈에서 처리하고, 시각적인 디테일과 고해상도 복원은 디퓨전 디코더에 분리해서 맡긴다.

그 결과, 일반적인 예술·사진 스타일에서도 주류 디퓨전 모델에 비슷한 수준을 유지하면서, 텍스트 렌더링·지식 밀도 높은 이미지·정확한 의미 전달에서는 뚜렷한 성능 차이를 보여, "정보 전달형 이미지"에 강한 모델로 포지셔닝된다.

하이브리드 아키텍처: AR + 디퓨전 역할 분담

GLM-Image의 오토리그레시브 부분은 90억 파라미터 GLM-4-9B(0414 버전)를 기반으로 하고, 디퓨전 디코더는 약 70억 파라미터의 CogView4 스타일 DiT 구조를 사용한다.

오토리그레시브 모듈은 텍스트와 이미지 토큰을 섞어 시퀀스로 생성하며, 이미지의 저주파 정보(레이아웃, 큰 구조, 어떤 내용이 어디에 있는지)를 토큰 단위로 만들어낸다.

디퓨전 디코더는 이 토큰을 조건(condition)으로 받아, 고주파 정보(텍스처, 질감, 작은 글자, 손가락 등)를 복원해 최종 이미지를 만든다.

이 구조 덕분에, 언어·지식 이해 능력은 LLM에서 직접 가져오고, 이미지는 "설명서를 보고 정교하게 그리는 화가"처럼 디퓨전이 마무리한다고 보면 된다.

시각 토큰 전략: VQ-VAE 대신 Semantic-VQ 선택

오토리그레시브 이미지 모델에서 핵심 선택은 "이미지를 어떤 토큰으로 쪼개서 모델에 먹일 것인가"다. 기존에는 대략 세 가지 방식이 있었다.

첫째, VQVAE로 얻은 순수 픽셀 재구성 코드(정보량은 많지만 의미 구조는 약하다). 둘째, Semantic-VQ처럼 의미 구조를 반영해 학습한 코드(정보량은 다소 줄지만, 토큰 간 상관관계·의미가 좋다). 셋째, DALLE2처럼 이미지 전체를 1D 벡터 피처로 바꿔 쓰는 방식(의미는 있지만 개별 이미지와의 대응성이 약하다).

실험적으로 VQVAE 토큰 대비 Semantic-VQ 토큰은 학습 손실이 크게 낮고, 토큰 간 의미적 상관관계가 좋아 오토리그레시브 학습이 훨씬 잘 수렴한다. 하지만 1D 벡터는 정보가 너무 압축돼 일반 생성에는 부족하다.

GLM-Image는 X-Omni에서 제안된 Semantic-VQ 방식을 채택한다. 이 토큰은 "이미지의 주요 의미·레이아웃"을 잘 표현하며, 부족한 디테일은 이후 디퓨전 디코더가 채우는 구조로 설계되어 있다.

오토리그레시브 사전학습: 해상도·토큰·포지셔닝 설계

텍스트-이미지, 이미지-이미지 두 가지 테스크를 섞어 오토리그레시브 모듈을 학습하며, 언어 임베딩은 고정하고 비전 임베딩만 새로 붙여 학습한다. 출력 헤드도 언어 LM 헤드 대신 비전용 LM 헤드로 교체한다.

텍스트와 이미지 토큰이 섞여 나오는 구조이기 때문에, 포지셔널 임베딩은 MRoPE를 사용해 다양한 조합(텍스트→이미지, 이미지→텍스트, 텍스트-이미지-텍스트 등)에서도 안정적으로 작동하도록 설계한다.

해상도는 256px→512px→512~1024px 혼합 단계로 올라가며, X-Omni 토크나이저의 16배 다운샘플링으로 토큰 개수는 256→1024→1024~4096개로 늘어난다. 최종 디퓨전 디코더 업스케일을 32로 잡아, 실제 결과물은 1024~2048px 수준의 고해상도로 나온다.

초기에는 단순 래스터 스캔 순서로 토큰을 생성했지만, 고해상도에서는 제어력이 떨어지는 문제가 있어, 먼저 저해상도(약 256 토큰) 레이아웃을 생성하고, 이를 기반으로 세밀 토큰을 생성하는 프로그레시브 전략을 적용한다. 이 "레이아웃 토큰"에 더 높은 학습 가중치를 주어 전체 이미지 구조의 안정성을 끌어올린다.

디퓨전 디코더 설계: 조건 입력과 효율성

디퓨전 디코더는 CogView4를 따라 단일 스트림 DiT 구조를 쓰고, 학습 스케줄링은 플로우 매칭(flow matching)을 채택해 안정적이고 빠른 수렴을 노린다.

조건 입력은 세 가지 축으로 구성된다. Semantic-VQ 토큰을 투영해 VAE 라텐트와 채널 방향으로 결합하고, 텍스트 인코더는 아예 제거해 메모리와 연산량을 줄인다. 텍스트 의미는 이미 AR 토큰에 반영되어 있기 때문에, 디코더에는 굳이 큰 텍스트 인코더가 필요 없다는 판단이다.

텍스트 렌더링, 특히 한자·한글처럼 복잡한 문자를 정확히 그리기 위해 "Glyph-byT5"라는 경량 문자 인코더를 추가로 써서, 실제 렌더링된 글자 영역에 대해 글리프 임베딩을 제공한다. 이를 시각 임베딩과 시퀀스 방향으로 합쳐 문자 이미지 품질을 올린다.

이미지 편집의 경우, 원본 이미지의 고주파 디테일을 유지하는 것이 핵심이라, Semantic-VQ 토큰뿐 아니라 원본 VAE 라텐트도 함께 조건으로 넣는다. 이때 Qwen-Image-Edit 같은 전체-전체(full) 어텐션 대신, ControlNet-Reference-Only 스타일의 블록 인과적 어텐션을 써서 참조 이미지 토큰 쪽 연산량을 크게 줄이면서도 디테일 보존은 유지한다.

AR·디퓨전 분리 강화학습: 보상 설계와 최적화

후반 튜닝에서 GLM-Image는 AR 모듈과 디퓨전 디코더를 분리해 강화학습을 적용한다. 두 모듈이 담당하는 목표 자체를 분리한 것이 포인트다.

오토리그레시브 모듈은 "저주파 보상"에 집중한다. HPSv3로 미적 점수를 올리고, OCR 신호로 텍스트 렌더링 정확도를 강화하며, VLM으로 전체 의미 일치도를 평가해 복잡한 지시를 제대로 반영하도록 만든다. 즉 "뭘 그릴지, 어떻게 배치할지"의 질을 올리는 방향이다.

디퓨전 디코더는 "고주파 보상"을 노린다. LPIPS로 지각적 질감·텍스처를 개선하고, OCR를 다시 활용해 실제 렌더링된 텍스트의 픽셀 수준 정확도를 올리며, 전용 손 인식 모델로 손가락 등 난이도 높은 세부 표현을 보완한다.

최적화 알고리즘은 두 모듈 모두 GRPO를 쓰되, 디퓨전 쪽은 Flow-GRPO라는 변형을 사용해 플로우 매칭 기반 디퓨전 모델에 맞게 조정한 형태다. 요약하면 "의미-레이아웃은 AR, 디테일-텍스처는 디퓨전"에 맞춰 보상·강화학습도 분리 설계했다.

벤치마크 결과: 어디가 강하고 어디가 약한가

텍스트 렌더링 벤치(CVTG-2k)에서는 GLM-Image가 오픈소스 중 최상위, 상용 포함 전체에서도 최상위권 성능을 보인다. 평균 단어 정확도, NED 등 대부분 지표에서 다른 오픈소스 모델을 앞서고, Seedream 4.5 같은 폐쇄형 상용 모델과도 어깨를 나란히 한다.

LongText-Bench(긴 텍스트를 이미지로 표현하는 능력)에서도 영어·중국어 모두 상위권으로, GPT Image 1, Nano Banana 수준과 비슷한 경쟁력을 보여준다. 특히 중국어 긴 텍스트에서는 GPT Image 1보다 훨씬 높은 점수를 기록해, 중화권·한자권 텍스트 이미지에 강한 편이다.

일반 이미지 이해·표현 능력을 보는 OneIG(EN/ZH)에서는, Seedream·Nano Banana·Qwen-Image 대비 약간 뒤이지만 여전히 상단 구간에 위치한다. 정교한 예술 스타일·다양성 측면에서는 일부 상업 모델보다 살짝 약하지만, 텍스트·지식 표현 측면에서는 균형 잡힌 결과를 보여준다.

복잡한 지시 따르기(DPG Bench)나 긴 텍스트 추출(TIFF Bench)에서는 중상위권 정도로, 완전 최상위는 아니지만 오픈소스 기준으로 충분한 실전 성능을 보여주는 수준이다. 비즈니스적으로 보면 "순수 예술성 극대화"보다는 "정확하고 풍부한 정보 표현" 쪽에 최적화된 모델이라고 볼 수 있다.

스타트업 관점에서의 활용 포인트

교육, 법률, 금융, 의료, B2B 솔루션처럼 "이미지 안에 정보량이 많고, 텍스트와 구조가 정확해야 하는" 도메인에는 GLM-Image 스타일의 하이브리드 구조가 특히 적합하다. 교재, 절차 다이어그램, 대시보드, 포스터, 인포그래픽 생성 등에 직접적 활용이 가능하다.

브랜드·마케팅 쪽에서는 "긴 카피가 들어간 포스터, 배너, 썸네일"처럼 텍스트가 많은 크리에이티브에서 강점을 살릴 수 있다. 브랜드 가이드, 레이아웃, 카피까지 LLM으로 설계한 뒤 AR+디퓨전으로 고해상도 이미지를 뽑는 파이프라인을 생각해볼 수 있다.

제품 설계·UI/UX, 전자상거래에서는 제품 설명, 옵션, 가격, 혜택 등이 함께 들어간 이미지 카드, 비교표, 워크플로우 다이어그램을 자동 생성하는 데 유리하다. 특히 다국어 텍스트 렌더링과 지식 표현을 한 번에 처리할 수 있다는 점이 강점이다.

오픈소스라는 점도 중요하다. 직접 파인튜닝으로 특정 도메인 레이아웃, 특정 언어·폰트, 특정 스타일을 강화해 "내 서비스 전용 이미지 엔진"으로 만드는 전략이 가능하다. 단, 디퓨전+AR 구조를 동시에 다뤄야 하니, 인프라·ML 인력은 어느 정도 준비되어 있어야 한다.

인사이트

이미지 생성의 다음 단계는 "예쁘게 그리는 것"에서 "복잡한 정보를 정확하게 시각화하는 것"으로 이동 중이고, GLM-Image는 이 방향에서 의미 있는 레퍼런스를 제공한다.

LLM의 언어·지식 이해 능력과 디퓨전의 시각 품질을 분리·조합하는 설계는, 앞으로 텍스트·표·차트·다이어그램을 포함한 "문서형 이미지"를 다루는 서비스에서 핵심 패턴이 될 가능성이 크다.

창업자 입장에서는, 지금 당장은 완벽한 예술성보다 "정보 전달력과 생산성"이 높은 이미지를 빠르게 대량 생산할 수 있는지에 초점을 두고, GLM-Image 같은 하이브리드 구조를 도입·커스터마이징하는 전략을 검토해볼 만하다.

출처 및 참고 : GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation