애플 Manzano: AI가 이미지 이해와 생성 모두 잡는 최초의 ‘하이브리드’ 모델
‘AI가 이미지를 그릴 줄도 알고, 동시에 읽고 해석도 하더라!’
요즘 대세는 AI가 그림도 그리고, 사진도 분석해서 의미를 파악하는 것. 그런데, 한 번에 둘 다 잘하는 모델은 드물었습니다. 애플이 이 난제를 해결하기 위해 개발 중인 새로운 모델, Manzano를 공개했습니다. Manzano는 이미지 이해(분석)와 생성(만들기)을 동시에 압도적으로 처리할 수 있는 진짜 ‘하이브리드’ AI. 오늘은 이 최신 인공지능 기술의 핵심과 실용적인 가치까지 쉽고 재미있게 풀어드립니다.
Manzano란? 인공지능의 두 얼굴을 모두 잡다
애플이 Manzano라는 이름의 AI 모델을 연구 중이라고 발표했습니다. 이 모델의 특징은 바로 ‘이미지 이해와 생성’을 한 번에 처리한다는 점! 기존 오픈소스 모델들은 분석과 창작 중 하나에만 집중했는데, Manzano는 둘 다를 놓치지 않습니다.
공개된 데모나 실제 서비스는 아직 없지만, 연구 논문과 저해상도 샘플 이미지(복잡한 지시를 따른 그림들)로 이미 성능을 실증했습니다. 예를 들면 “코끼리 아래에서 나는 새가 날아다니는 장면을 그려줘” 같은 기묘한 요청에도 상당히 자연스러운 이미지를 만듭니다.
Manzano의 핵심: 하이브리드 이미지 토크나이저
지금까지 AI가 이미지를 이해할 때와 만들 때는 서로 다른 방식(토크나이저)을 써서, 둘 사이에 성능 충돌이 있었습니다. Manzano의 하이브리드 이미지 토크나이저는 이 난관을 혁신적으로 해결하는 기술입니다.
연속(Continuous) 토큰: 이미지를 숫자(실수/벡터)로 자세히 파악, 문서·도표·텍스트 추출 등에 강점.
이산(Discrete) 토큰: 이미지를 범주로 나누어 하나의 ‘테이블’처럼 다루며, 생성(그림 만들기)에 최적.
Manzano는 하나의 공유된 이미지 인코더에서 이 두 가지 토큰을 동시에 뽑아내기에, 두 작업 사이의 충돌이 거의 없습니다.
덕분에, AI가 이미지를 읽는 작업(문서분석, 차트 해석 등)과 그리는 작업(상상 그림, 스타일 변환 등)을 언제든 자유롭게 오갈 수 있게 된 겁니다.
성능 벤치마크: AI 분야의 실질적 최고 수준
애플은 Manzano를 유명 이미지/텍스트 해석 벤치마크에서 시험했는데, 그 결과가 놀랍습니다.
‘ScienceQA’, ‘MMMU’, ‘MathVista’ 같은 복잡한 데이터셋에서 기존 오픈소스 모델, 그리고 구글(Gemini)·OpenAI(GPT-4o) 상용 모델들과 맞먹는 점수를 거뒀습니다.
텍스트가 많은 이미지(문서, 도표, 복잡한 그림)의 이해에서 압도적 강점을 보임
프롬프트 기반 이미지 생성에서는 창의성, 정확성, 디테일 모두 뛰어남
모델 크기가 커질수록 성능이 꾸준히 상승(300M → 3B → 30B 파라미터)
진짜로 무엇이 될까? 활용 분야와 기대 효과
Manzano의 구조는 분석과 생성 사이의 충돌을 최소화하니, 응용처가 무궁무진합니다.
문서 자동 해석 및 요약: 복잡하거나 텍스트가 많은 이미지에서도 내용 추출이 정밀함.
창의적 이미지 생성: 사용자 프롬프트에 따라 상상력 넘치는 그림, 스타일 변환까지 손쉽게 처리.
이미지 편집: 스타일 변경, 일부 영역 덧칠(인페인팅/아웃페인팅), 깊이 추정 등 최신 이미지 AI 기능도 지원.
모듈형 구조로 각 부품(이해·생성·디코더 등)을 독립적으로 업그레이드하면서 산업/서비스 요구에 맞게 확장 가능.
한계와 앞으로의 과제: GPT-5와의 협력까지
아직 실제 제품/서비스에 바로 적용된 것은 아니지만, Manzano는 AI의 ‘통합’을 향해 중요한 한 걸음을 내딛었습니다. 단, 애플의 기존 Foundation 모델들은 OpenAI, 구글 등 주요 경쟁사보다 약간 뒤쳐진 성능을 보이고 있어, iOS26 버전부터는 GPT-5와 같은 외부 모델을 Apple Intelligence에 연동해 격차를 메울 계힉이라고 합니다.
결국, Manzano와 같은 혁신형 AI가 더 커지고 완성될수록, 우리가 접하는 영상·문서·디자인·사진 서비스는 더욱 ‘똑똑하고 자유로운’ 인공지능을 누릴 수 있을 겁니다.
정리: 인공지능 ‘올인원’ 시대, Manzano가 연다
복잡한 이미지를 해석하고 멋진 그림을 직접 그려주는 AI—둘 중 하나만 잘하는 게 아니라, ‘한 번에 두 개 다!’라는 자체가 Manzano의 진짜 혁신입니다. 하이브리드 이미지 토크나이저와 모듈형 구조 덕분에 앞으로 AI 서비스, 창의적 작업, 문서 분석 분야에 강력한 변화가 예상됩니다.
아직 대중에게 공개된 데모는 없지만, 향후 다양한 앱과 서비스에서 직접 Manzano의 변화를 체험할 순간을 기대해도 좋겠습니다.
이미지 AI에 관심 있다면, 지금부터 눈여겨봐두세요. AI의 미래, Manzano가 한 번에 열고 있습니다!
참고문헌
[1] Apple introduces Manzano, a model for both image understanding and generation - THE DECODER
[2] Manzano: Unified Multimodal Model Achieves Scalable Vision-Language Understanding and Generation with Hybrid Tokenizer - Quantum Zeitgeist
[3] Hybrid Image Tokenizer: Apple’s New Approach to Multimodal Models - Neurohive
이미지 출처
이미지 출처: Anna Shvets on Pexels