Stable Cascade - 적은 메모리로 빠르게 이미지를 생성하는 모델

스테빌리티 AI에서 Stable cascade 를 발표했습니다. Würstchen 아키텍처를 기반으로 하며 비상업적 라이선스입니다.

스테이블 캐스케이드는 3 단계의 접근 방식으로 이미지를 생성합니다. 이 때문에 소비자 하드웨어에서 쉽게 훈련시키고 파인튜닝할 수 있다고 합니다.

Stable Cascade - 적은 메모리로 빠르게 이미지를 생성하는 모델 image 1

안정적인 캐스케이드는 A, B, C의 세 단계로 구성된 파이프라인을 기반으로 합니다. 이 아키텍처는 이미지의 계층적 압축을 통해 놀라운 결과를 달성하며, 매우 압축된 잠재 공간을 활용합니다. 각 단계는 다음과 같습니다:

잠재 생성기(Stage C): 사용자 입력을 24x24 잠재 변수로 변환합니다.
잠재 디코더(Stage A & B): 이미지를 압축합니다. 이는 안정적인 확산(Stable Diffusion)에서 VAE가 하는 일과 유사하지만 훨씬 더 높은 압축률을 달성합니다.

Stage C에서만 추가 훈련이나 미세 조정을 수행함으로써, 유사한 크기의 안정적 확산 모델을 훈련하는 것에 비해 16배의 비용 절감 효과가 있습니다.

생각

뷔르슈첸 아키텍처를 사용한 스테이블 디퓨전의 모델이다. 독일어로 뷔르슈첸은 소시지를 뜻하는 단어인데 텍스트에서 이미지로의 변환 과정을 효율적으로 압축한다는 뜻인것 같다.

Würstchen의 장점은 이미지 생성속도가 빠르고 적은 메모리 사용으로 이미지를 생성할 수 있다는 것이다. Würstchen v1은 512x512에서 작동하며, 단 9,000 GPU 시간의 훈련만으로 가능합니다. 이는 Stable Diffusion 1.4에 소요된 150,000 GPU 시간과 비교했을 때, 비용을 16배 줄이는 효과가 있다. 약 20GB의 VRAM으로 구동이 가능하다고 한다.

참고 : Introducing Stable Cascade — Stability AI

데모는 여기에서 사용이 가능하다. Stable Cascade - a Hugging Face Space by multimodalart