검색
검색
회원가입로그인

DeepFloyd IF - Stability AI의 텍스트 투 이미지 모델 (글씨 생성 강화)

딥플로이드 랩 (DeepFloyd Lab) 은 스테빌리티 AI의 연구 조직이다.

딥플로이드에서 새로운 오픈소스 텍스트 투 이미지 모델인 DeepFloyd IF를 공개했다. IF는 높은 수준의 현실적인 이미지 생성과 언어 이해 능력을 가지고 있다고 한다.

T5 트랜스포머를 활용한 프로즌 텍스트 인코더로 텍스트 임베딩을 추출한다고 한다.

GitHub - deep-floyd/IF

허깅 페이스에서 데모를 사용해 볼 수 있다.

IF - a Hugging Face Space by DeepFloyd

특이할만한 점은 이제 이미지에 글씨를 쓸 수 있다는 것이다. 다음과 같이 입력을 하면 이미지에 글씨를 써준다.

letters made of candy on a plate that says "diet"

DeepFloyd IF - Stability AI의 텍스트 투 이미지 모델 (글씨 생성 강화) image 1

다른 특이할 만한 점은 이미지의 스타일 변환을 잘 할 수 있다는 것이다.

파이썬으로 돌려볼 수 있고 사양은 최소 16GB 이상의 vRAM이 있어야 한다. 모델은 비상업적인 연구 목적으로 활용할 수 있다.

스테이블 디퓨전이 있는데 IF를 왜 만들었는지는 잘 모르겠다. 연구용 버전이라고 보면 되나?

조회수 : 1199
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기