알리바바가 공개한 Qwen-Image-2512, 오픈소스 이미지 AI의 새로운 기준

2025년 마지막 날, 알리바바 Qwen 팀이 새해 선물처럼 이미지 생성 모델을 공개했다. Qwen-Image-2512다. 10,000회 이상의 블라인드 테스트에서 오픈소스 이미지 모델 중 1위를 기록했고, 일부 클로즈드 소스 모델과도 경쟁할 수 있는 수준이라는 평가를 받고 있다.

이번 글에서는 Qwen-Image-2512가 무엇이 다른지, 어떻게 사용할 수 있는지, 그리고 내 컴퓨터에서 직접 돌릴 수 있는지까지 정리해본다.

알리바바가 공개한 Qwen-Image-2512, 오픈소스 이미지 AI의 새로운 기준 image 1

AI 이미지의 고질병, "플라스틱 인간"을 해결했다

그동안 AI 이미지 생성의 가장 큰 문제는 사람이었다. 피부가 너무 매끈해서 인형 같고, 머리카락은 뭉개져 있고, 표정은 어딘가 어색했다. 소위 "불쾌한 골짜기"라고 불리는 현상이다.

Qwen-Image-2512는 이 문제를 정면으로 해결했다.

피부의 모공과 주름까지 표현하고, 머리카락을 한 올 한 올 렌더링한다. 나이에 맞는 피부 질감을 재현해서 20대와 70대의 피부가 확연히 다르게 나온다. 이전 버전에서는 나이 든 사람을 그려도 주름이 제대로 표현되지 않아 어색했는데, 이번 버전에서는 자연스러운 노화 표현이 가능해졌다.

알리바바가 공개한 Qwen-Image-2512, 오픈소스 이미지 AI의 새로운 기준 image 2

Qwen Image 로 생성한 인물 사진

이미지 안의 텍스트, 드디어 제대로 된다

AI 이미지 생성에서 또 하나의 난제가 텍스트였다. 포스터나 간판을 만들려고 하면 글자가 깨지거나 이상하게 나오는 경우가 대부분이었다.

Qwen-Image-2512는 텍스트 렌더링에서 확실한 강점을 보여준다. PPT 슬라이드, 인포그래픽, 포스터 디자인 등 이미지 안에 들어가는 텍스트를 정확하게 배치하고 표현한다. 중국어와 영어를 잘한다. 한글 렌더링은 아직 부족하다.

이건 실제 업무에서 엄청난 차이를 만든다. 마케팅 이미지, 썸네일, 발표 자료 등을 AI로 빠르게 만들 수 있다는 뜻이기 때문이다.

자연 요소 표현도 한 단계 업그레이드

사람과 텍스트만 좋아진 게 아니다. 풍경, 동물, 자연 요소의 디테일도 크게 개선됐다.

강물의 반사광, 동물 털의 질감, 바위와 나무의 세부 표현이 이전 버전과 확연히 다르다. 특히 동물 털 표현에서 차이가 두드러지는데, 이전에는 털이 뭉개져서 표현됐다면 이번 버전에서는 개별 털이 구분될 정도로 세밀하다.

Apache 2.0 라이선스, 상업적 사용까지 무료

Qwen-Image-2512의 가장 큰 장점 중 하나는 라이선스다. Apache 2.0 라이선스로 공개되어서 누구나 무료로 다운받아 사용할 수 있다. 수정, 파인튜닝, 상업적 활용까지 모두 가능하다.

이게 왜 중요하냐면, 기존의 고품질 이미지 생성 모델들은 대부분 API 과금 방식이었기 때문이다. Midjourney는 월 구독료가 필요하고, DALL-E 3도 크레딧 기반으로 과금된다. 하지만 Qwen-Image-2512는 내 컴퓨터에서 무료로 무제한 생성이 가능하다.

API로 사용하고 싶다면 Alibaba Cloud Model Studio에서 이미지당 $0.075(약 100원)에 이용할 수도 있다.

내 컴퓨터에서 돌릴 수 있을까?

20B 파라미터 모델이라 "일반 PC에서 돌릴 수 있나?"라는 의문이 들 수 있다.

결론부터 말하면, 양자화 버전을 사용하면 가능하다.

풀 버전은 24GB VRAM + 64GB RAM이 필요해서 RTX 4090급이 아니면 어렵다. 하지만 커뮤니티에서 이미 다양한 최적화 버전을 만들어냈다.

Unsloth에서 공개한 GGUF 4-bit 버전은 약 13GB 메모리만 있으면 된다. RTX 4070 Ti Super(16GB) 정도면 여유 있게 돌릴 수 있고, RTX 3060 12GB도 가능하다. 심지어 GPU 없이 CPU + RAM만으로도 실행할 수 있다. 느리지만 작동은 한다.

DiffSynth-Studio를 사용하면 최소 8GB VRAM에서도 실행 가능하다고 한다.

Lightning LoRA 버전을 사용하면 생성 스텝을 50에서 4로 줄여서 속도를 대폭 높일 수도 있다. 품질은 약간 떨어지지만 테스트 용도로는 충분하다.

어디서 사용할 수 있나?

가장 쉬운 방법은 Qwen Chat(chat.qwen.ai)에서 "Image Generation" 기능을 선택하는 것이다. 계정 없이도 기본적인 테스트가 가능하다.

로컬에서 돌리고 싶다면 Hugging Face나 ModelScope에서 모델을 다운받아 ComfyUI로 실행할 수 있다. 앞서 말한 GGUF 양자화 버전을 사용하면 일반 그래픽카드에서도 충분히 돌릴 수 있다.

경쟁 구도는 어떻게 되나?

이미지 생성 AI 시장이 점점 뜨거워지고 있다. 텐센트의 HunyuanImage 3.0, 알리바바의 또 다른 팀이 만든 Z-Image, Black Forest Labs의 Flux.2 등이 경쟁하고 있다.

특히 중국 빅테크들의 오픈소스 공세가 거세다. Qwen 팀은 LLM뿐 아니라 이미지, 비디오, 음성까지 전 영역에서 오픈소스 모델을 쏟아내고 있다. 개발자 입장에서는 선택지가 늘어나는 좋은 상황이다.

정리

Qwen-Image-2512는 오픈소스 이미지 생성 AI의 새로운 기준을 세웠다.

플라스틱처럼 보이던 AI 인물 사진이 자연스러워졌고, 이미지 안의 텍스트가 제대로 렌더링되고, 자연 요소의 디테일이 살아났다. 무엇보다 Apache 2.0 라이선스로 누구나 무료로 사용할 수 있다.

16GB VRAM 그래픽카드만 있어도 내 컴퓨터에서 고품질 이미지를 무제한으로 생성할 수 있는 시대가 됐다.

AI 트렌드를 빠르게 따라가고 싶다면 틸노트를 써봐. 키워드 하나로 위키피디아 스타일의 지식 노트를 만들고 학습할 수 있어. 새로운 정보를 계속 추가하면서 나만의 AI 지식 베이스를 만들어가는 거지.

https://tilnote.io