구글의 뤼미에르 비디오 생성 AI 모델 - 시간 및 공간 디퓨전으로 고해상도 동영상 생성
구글에서 텍스트를 비디오로 생성해주는 인공지능 모델을 내놓았습니다. 이름은 뤼미에르입니다. 뤼미에르는 프랑스어로 빛이란 뜻이죠. (https://lumiere-video.github.io/)
텍스트뿐만 아니라 이미지를 비디오로 바꿔주는 모델입니다.
Space-Time U-Net 아키텍처를 사용해서 전체 비디오를 한 번에 만들어 낼 수 있습니다. 이 때문에 일관성있는 움직임이나 높은 품질을 유지할 수 있습니다.
뤼미에르는 비디오 인페인팅이나 이미지에서 비디오 생성, 비디오에 스타일 적용하기 등 다양한 분야에서 사용할 수 있습니다. 3000만개의 비디오를 바탕으로 훈련되어 좋은 품질의 동영상을 생성한다고 합니다.
모델은 text to image 모델을 기반으로 하는데 비디오와 관련된 추가적인 레이어를 가지고 있습니다. (ex : temporal dimension)
Lumieres는 생성과정에서 비디오의 해상도를 저하시켜 이를 쉽게 이해하도록 만들고 다시 업샘플링하여 고품질의 동영상을 생성합니다.
구글에 따르면 사용자 테스트에서 Imagen Video, Pika, Stable Video Diffusion, Gen-2보다 좋은 점수를 받았다고 합니다. 하지만 뤼미에르 자체가 여러 개의 씬(장면)을 가진 비디오나 장면 간의 전환을 다룰 수 있기 만들어진 모델은 아니기 때문에 이 부분에 대해서는 미래에 더 많은 연구가 필요하다고 합니다. (즉 짧은 동영상을 위한 모델)
생각
이 모델은 구글에서 사용할 수 있게 공개한 모델은 아니다. 하지만 발표한 논문에서 작동 방식을 확인할 수 있다. 시간 (초당 프레임 수) 및 공간 (공간 또는 픽셀) 디퓨전을 이용해 비디오를 생성한다. 비디오는 시간 및 공간 다운 샘플링을 한 후 다시 업샘플링하는 방식을 사용하여 비디오를 이해하고 한 번에 생성한다.
또 멀티 디퓨전을 이용해 공간적 초고해상도를 달성한다. Multidiffusion for spatial super-resolution (SSR) 저해상도로 되었을 때 각 부분으로 나눠 디퓨전을 실행한다. 디퓨전은 데이터에 노이즈를 준 후 이 노이즈를 점차 제거하여 원하는 형태의 데이터를 생성하는 기법이다.
이런 기술적인 것 외에도 접근 방식이 흥미롭다. 비디오 전체를 이해하고 일관된 영상을 만드는 것을 시도하는 것 같다. 지금도 짧은 동영상을 만드는 모델들이 많지만 어떤 일관적인 스타일을 가지고 긴 영상을 만들어 주는 것 없다. 지금은 그림을 움직이는 정도라고 할까? 하지만 구글이 목표로하고 있는 건 전체적인 긴 영상의 비디오를 만드는 것으로 보인다. 물론 이게 언제 실현될지는 모르겠다. 기술적인 면에서 도전적일 것 같다.