Stable Video Diffusion 공개 - 동영상 생성 모델
스테이블 비디오 디퓨전 (SVD)가 연구버전으로 공개됐습니다. 스테이블 디퓨전의 이미지 모델을 활용해서 동영상을 만들 수 있습니다!
코드는 github에서 확인할 수 있고 weights는 허깅 페이스 페이지를 통해 다운로드 받을 수 있습니다. 이들을 활용하면 로컬에서 SVD를 돌릴 수 있습니다.
또 웹 버전은 대기자를 신청하면 사용할 수 있다고 합니다. 대기자 리스트 신청하기
데모는 유튜브 영상으로 확인할 수 있습니다. 텍스트와 이미지에서 동영상을 생성할 수 있네요.
Stable Video Diffusion은 14 프레임과 25프레임 버전의 동영상을 생성할 수 있습니다. 프레임 레이트는 초 당 3~30프레임이라고 합니다. 스테이블 AI 자체 리서치에 따르면 사용자 선호도에서 runway나 pika labs에 근접하거나 넘는 정도를 보였다고 합니다.
stability.ai 도 이미지, 언어, 오디오, 3D, 코드 등 다양한 분야에서 개발을 하고 있는 것 같네요.
SVD는 Stable Diffusion 도구인 ComfyUI 에 지원이 추가되어 사용할 수 있습니다. ComfyUI는 스테이블 디퓨전 사용자들이 많이 사용하는 그래픽 인터페이스 도구입니다. CompyUI 개발자들에 따르면 7년 된 Nvidia GTX 1080 8GM VRAM으로 25 프레임의 비디오를 생성할 수 있었다고 합니다. 또 리눅스에서 ROCm을 실행하는 AMD 6800 XT(16GB VRAM)를 사용하여 비디오를 생성하는데 3분이 걸렸다고 합니다.
제 PC에서는 어림도 없겠군요...ㅠㅠ 웹 버전을 기다려 봐야겠네요.
데모 사용해 보기 : Stable Video Diffusion - a Hugging Face Space by multimodalart
키워드만 입력하면 나만의 학습 노트가 완성돼요.
책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.
콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.