Stable Diffusion 3 Medium (SD3)

Stability가 2024년 6월 12일 공개한 최신 모델. SD3의 중간 급 모델.

소개

스테이블 디퓨전 미디엄(Stable Diffusion Medium, 이하 SD3)은 Stability AI에서 개발한 최신 텍스트-이미지 생성 AI 모델로, SD3 시리즈 중에서 가장 발전된 버전 중 하나입니다. 이 모델은 2024년 6월 12일 공식적으로 오픈 소스로 공개되었습니다. SD3는 컴퓨터 그래픽스 및 인공지능 분야의 중요한 전환점을 나타내며, 고품질의 이미지를 생성하는 능력으로 이미 다양한 사용자 층에서 큰 인기를 끌고 있습니다.

주요 특징

20억 개의 파라미터: SD3 미디엄은 20억 개의 파라미터로 구성되며, 이는 더욱 세밀하고 상세한 이미지 생성을 가능하게 합니다. (기존 SD3 모델은 800M~80억 파라미터)
고품질 이미지 생성: SD3 미디엄은 손과 얼굴과 같은 현실적인 디테일을 성공적으로 해결하며, 16채널 VAE와 같은 혁신적인 기술을 통해 매우 높은 수준의 사실성 있는 이미지를 제공합니다.
복잡한 프롬프트 이해: 공간적 추론, 구성 요소, 행동 및 스타일을 포함하는 긴 텍스트 프롬프트도 이해할 수 있습니다.
타이포그래피: 디퓨전 트랜스포머(Diffusion Transformer) 아키텍처 덕분에 철자 오류, 크닝, 글자 형성 및 간격 문제를 최소화했습니다.
자원 효율성: 낮은 VRAM 필요량 덕분에 일반 소비자 GPU에서도 성능 저하 없이 실행 가능합니다.
미세 조정: 소규모 데이터 세트에서 세밀한 디테일을 학습할 수 있어서 사용자 맞춤화에 적합합니다.

협력 및 최적화

SD3 미디엄의 성능을 향상시키기 위해 Stability AI는 NVIDIA 및 AMD와 협력했습니다. NVIDIA RTX GPU를 사용한 TensorRT 최적화 버전은 최대 50%의 성능 향상을 제공하며, AMD의 최신 APU와 MI-300X 엔터프라이즈 GPU에서도 최적화된 성능을 제공합니다.

오픈 소스 및 상업적 라이센스

SD3 미디엄은 Stability 비상업 연구 커뮤니티 라이센스 하에 공개됩니다. 비상업적 연구 목적의 사용자는 무료로 접근할 수 있으며, 상업적 목적으로는 저비용 크리에이터 라이센스를 제공받을 수 있습니다. 대규모 상업 이용자는 Stability AI와 직접 연락하여 엔터프라이즈 라이센스를 취득할 수 있습니다. 이는 다양한 사용자 층이 기술의 혜택을 받을 수 있도록 접근성을 높이기 위함입니다.

사용 방법

모델 다운로드: Hugging Face에서 SD3 미디엄 모델의 가중치를 다운로드할 수 있습니다.
API 접근: Stability AI API를 통해 SD3 미디엄에 접근할 수 있으며, 이 API는 기존 워크플로우와 애플리케이션에 쉽게 통합할 수 있습니다. Stability AI - Developer Platform
Stable Assistant (유료) 및 Stable Artisan 사용: Stable Assistant 챗봇과 Discord의 Stable Artisan을 통해 인터랙티브하게 모델을 체험해볼 수 있습니다. (라지 및 울트라 모델)

미래 계획

Stability AI는 사용자 피드백을 기반으로 SD3 미디엄을 지속적으로 개선하고, 성능 향상 및 새로운 기능 추가를 계획하고 있습니다. 또한, 연구자, 아티스트 및 개발자와의 협력을 통해 모델의 기능을 확장하고, AI 생성 예술의 새로운 기준을 설정하려고 합니다.

결론

Stable Diffusion 3 Medium은 높은 성능과 품질, 그리고 접근성을 제공하는 중요한 발전을 이룬 모델입니다. 창작 활동을 촉진하고 디지털 아트의 가능성을 확장하는 데 중요한 역할을 할 것으로 기대됩니다. 사용자들이 SD3 미디엄을 통해 실현할 수 있는 창의적인 가능성은 무궁무진하며, 안정적이고 책임감 있는 AI 사용을 촉진하는 Stability AI의 비전과 사명을 반영하고 있습니다.