AI OmniGen

소개

OmniGen은 다양한 이미지 생성 작업을 통합하여 수행할 수 있는 통합 이미지 생성 모델입니다. 기존의 이미지 생성 모델들이 특정 작업에 최적화된 반면, OmniGen은 다양한 작업을 하나의 모델 내에서 처리할 수 있도록 설계되었습니다. 이 모델은 텍스트-이미지 생성, 이미지 편집, 주제 기반 생성, 시각적 조건 기반 생성 등 여러 작업을 수행하며, 전통적인 컴퓨터 비전 작업도 처리할 수 있습니다.

다시 말해 텍스트 이미지 생성, 이미지 레퍼런스, 주제 중심 생성이 가능한 다목적 용도의 이미지 생성 모델.

AI OmniGen - 다목적 용도의 이미지 생성 모델 image 1

https://aiomnigen.com

주요 기능

텍스트-이미지 생성

OmniGen은 주어진 텍스트 설명을 기반으로 이미지를 생성할 수 있습니다. 사용자는 단순한 텍스트 프롬프트를 통해 높은 해상도의 이미지를 생성할 수 있으며, 다양한 스타일과 내용을 반영할 수 있습니다.

이미지 편집

기존의 이미지에서 객체를 추가하거나 제거하고, 색상이나 스타일을 변경하는 등의 작업을 수행할 수 있습니다. 이미지의 특정 영역을 수정하거나 복구하는 등 세부적인 편집이 가능합니다.

시각적 조건 기반 생성

참조 이미지의 조건(예: 깊이 지도, 가장자리 맵)을 사용하여 새 이미지를 생성할 수 있습니다. 기존에는 여러 단계가 필요했던 작업을 OmniGen은 한 번의 입력으로 처리할 수 있습니다.

주제 기반 생성

참조 이미지에 있는 특정 객체를 기반으로 새로운 이미지를 생성할 수 있습니다. 여러 객체가 포함된 이미지에서 사용자가 텍스트 지시를 통해 생성할 객체를 지정할 수 있습니다.

전통적인 컴퓨터 비전 작업

OmniGen은 이미지 복원(예: 블러 제거, 비 내림 제거), 인물 자세 인식, 엣지 검출 등 기존 컴퓨터 비전 작업도 수행할 수 있습니다.

새로운 작업에 대한 학습

OmniGen은 사전 학습된 데이터와 몇 가지 예시만으로도 새로운 작업이나 도메인에 적응할 수 있는 인-컨텍스트 학습 능력을 갖추고 있습니다.

배경 설명

OmniGen은 베이징 인공지능 연구원(BAAI)에서 개발한 AI 시각 생성 모델입니다

BAAI는 약 1억 개의 이미지를 포함하는 대규모 통합 이미지 생성 데이터셋인 X2I를 구축했으며, 이는 향후 공개될 예정입니다.

이 모델은 오픈소스로 공개되어 있어 사용자들이 직접 탐색하고 미세 조정할 수 있습니다.

참고 문헌

Xiao, Shitao et al. "OmniGen: Unified Image Generation". arXiv preprint arXiv:2409.11340, 2024. PDF 링크
GitHub: OmniGen 저장소
HuggingFace 데모 : OmniGen - a Hugging Face Space by Shitao