Stable diffusion turbo 공개 - 무지 빠른 이미지 생성

2023-12-04 13:13•조회수 1,589

스테이블 디퓨전 XL 터보

텍스트로 이미지를 생성하는 스테이블 디퓨전의 새로운 모델이 발표되었습니다. 이름은 SDXL Turbo 입니다.

새로운 증류 기술인 Adversarial Diffusion Distillation (ADD) 통해 단일 단계(single step) 이미지 생성이 가능합니다. 이전 모델보다 단계수를 크게 줄였기 때문에 (기존 50단계->1단계) 빠른 속도로 고품질 이미지를 생성할 수 있습니다.

정말 빠릅니다. 글씨를 입력하자 마자 잠깐 후에 이미지가 바로 나타납니다. 클립드롭에서 사용해 볼 수 있습니다. (로그인 필요) Clipdrop - SDXL Turbo

Stable diffusion turbo 공개 - 무지 빠른 이미지 생성 image 1

프롬프트 : countryside

코드와 모델 가중치를 모두 비상업적 연구 라이센스로 공개했습니다.

적대적 확산 증류(Adversarial Diffusion Distillation)를 통해 1~4단계에서 고품질 이미지를 빠르게 생성할 수 있다고 합니다.

Adversarial Diffusion Distillation (ADD)은 이미지 모델을 훈련시키는 새로운 방법입니다. 이 방법은 1-4 단계 안에서 고품질 이미지를 빠르게 생성할 수 있습니다. 이를 위해 ADD는 두 가지 기술을 결합합니다: 스코어 디스틸레이션(score distillation)과 적대적 훈련(adversarial training).

스코어 디스틸레이션은 사전 훈련된 대규모 이미지 모델을 선생님으로 사용하여 훈련을 안내하는 것을 의미합니다. 이것은 이미지 품질을 유지하는 데 도움을 줍니다.
적대적 훈련은 생성된 이미지가 실제 이미지와 가깝게 일치하도록 하는 추가적인 향상을 제공합니다. 이것은 이미지를 단 한 두 단계로 생성할 때에도 높은 이미지 품질을 보장합니다.

ADD의 결과는 인상적입니다. 이 방법은 다른 방법들인 GANs(생성적 적대 신경망) 및 잠재 일관성 모델(Latent Consistency Models)과 비교했을 때, 단 한 단계로 이미지를 생성할 때에도 우수한 성능을 보입니다. 이것은 과정에서 단계를 최소화하면서 고품질 이미지를 효율적으로 생성할 수 있음을 의미합니다.

ADD란? "Adversarial Diffusion Distillation"이라는 개념은 새로운 훈련 방법론입니다. 이 방법은 대규모 이미지 확산 모델을 단 1-4단계로 효율적으로 샘플링하면서도 높은 이미지 품질을 유지합니다. 여기서는 큰 규모의 준비된 이미지 확산 모델을 '교사 신호'(Teacher signam)로 활용하고, 적대적 손실(adversarial loss)을 이용해 1-2단계의 저단계 샘플링에서도 높은 이미지 충실도를 보장합니다. 이 연구의 분석에 따르면, 이 모델은 기존의 적은 단계 방법(예: GANs, Latent Consistency Models)을 1단계에서 뛰어넘으며, 성능면에서도 우수함을 보여줍니다. 논문

실행화면

성능은 1 step에서는 당연히 SDXL 기초 모델을 이기지 못했지만 4스텝에서는 SDXL 1.0 Base 50 steps를 이기는 모습을 보여줍니다. (평가는 결과를 놓고 사람이 평가)

앞으로 증류를 통해 경량화를 이루어서 빠른 속도로 인공지능 모델을 사용하는 기술을 자주 보게 될 것 같습니다.

참고 : Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model — Stability AI

#인공지능 #ai #이미지 모델 #스테이블 디퓨전 XL 터보 #적대적 확산 증류