Stable Video Diffusion 공개 - 동영상 생성 모델

스테이블 비디오 디퓨전 (SVD)가 연구버전으로 공개됐습니다. 스테이블 디퓨전의 이미지 모델을 활용해서 동영상을 만들 수 있습니다!

코드는 github에서 확인할 수 있고 weights는 허깅 페이스 페이지를 통해 다운로드 받을 수 있습니다. 이들을 활용하면 로컬에서 SVD를 돌릴 수 있습니다.

또 웹 버전은 대기자를 신청하면 사용할 수 있다고 합니다. 대기자 리스트 신청하기

데모는 유튜브 영상으로 확인할 수 있습니다. 텍스트와 이미지에서 동영상을 생성할 수 있네요.

Stable Video Diffusion은 14 프레임과 25프레임 버전의 동영상을 생성할 수 있습니다. 프레임 레이트는 초 당 3~30프레임이라고 합니다. 스테이블 AI 자체 리서치에 따르면 사용자 선호도에서 runway나 pika labs에 근접하거나 넘는 정도를 보였다고 합니다.

stability.ai 도 이미지, 언어, 오디오, 3D, 코드 등 다양한 분야에서 개발을 하고 있는 것 같네요.

SVD는 Stable Diffusion 도구인 ComfyUI 에 지원이 추가되어 사용할 수 있습니다. ComfyUI는 스테이블 디퓨전 사용자들이 많이 사용하는 그래픽 인터페이스 도구입니다. CompyUI 개발자들에 따르면 7년 된 Nvidia GTX 1080 8GM VRAM으로 25 프레임의 비디오를 생성할 수 있었다고 합니다. 또 리눅스에서 ROCm을 실행하는 AMD 6800 XT(16GB VRAM)를 사용하여 비디오를 생성하는데 3분이 걸렸다고 합니다.

제 PC에서는 어림도 없겠군요...ㅠㅠ 웹 버전을 기다려 봐야겠네요.

데모 사용해 보기 : Stable Video Diffusion - a Hugging Face Space by multimodalart

Stable Video Diffusion 공개 - 동영상 생성 모델

키워드만 입력하면 나만의 학습 노트가 완성돼요.