DeepFloyd IF - Stability AI의 텍스트 투 이미지 모델 (글씨 생성 강화)

딥플로이드 랩 (DeepFloyd Lab) 은 스테빌리티 AI의 연구 조직이다.

딥플로이드에서 새로운 오픈소스 텍스트 투 이미지 모델인 DeepFloyd IF를 공개했다. IF는 높은 수준의 현실적인 이미지 생성과 언어 이해 능력을 가지고 있다고 한다.

T5 트랜스포머를 활용한 프로즌 텍스트 인코더로 텍스트 임베딩을 추출한다고 한다.

허깅 페이스에서 데모를 사용해 볼 수 있다.

특이할만한 점은 이제 이미지에 글씨를 쓸 수 있다는 것이다. 다음과 같이 입력을 하면 이미지에 글씨를 써준다.

letters made of candy on a plate that says "diet"

DeepFloyd IF - Stability AI의 텍스트 투 이미지 모델 (글씨 생성 강화) image 1

다른 특이할 만한 점은 이미지의 스타일 변환을 잘 할 수 있다는 것이다.

파이썬으로 돌려볼 수 있고 사양은 최소 16GB 이상의 vRAM이 있어야 한다. 모델은 비상업적인 연구 목적으로 활용할 수 있다.

스테이블 디퓨전이 있는데 IF를 왜 만들었는지는 잘 모르겠다. 연구용 버전이라고 보면 되나?