Google DeepMind의 V2A - 비디오의 사운드 트랙과, 대화를 생성하는 AI 기술

V2A

DeepMind에서 V2A 라는 기술을 개발하고 있습니다.

V2A(video-to-audio)는 비디오의 사운드트랙과 대화를 생성하는 AI 기술입니다.

현재 많은 비디오 생성 AI 모델은 무음 비디오만 생성 가능합니다.

V2A 기술은 설명을 기반으로 비디오에 맞는 음악, 효과음, 대화를 생성할 수 있습니다.

DeepMind의 딥페이크 방지 기술인 SynthID 기술로 워터마크를 삽입했다고 합니다.

V2A는 확산 모델(diffusion model)이며 사운드, 대화 스크립트, 비디오 클립으로 학습되었습니다.

특정 오디오 이벤트와 시각적 장면 연관성을 학습했다고 합니다.

예를 들어 비디오에 대화를 입히거나 사운드 트랙을 입힐 때 활용할 수 있습니다.

다른 서비스와의 차별점은 DeepMind의 V2A는 비디오의 원시 픽셀을 이해하고 자동으로 소리를 동기화할 수 있다고 합니다.

DeepMind는 V2A 기술의 남용 방지 위해 아직은 공개하지 않을 예정이라고 합니다.

드럼 소리를 재현한 V2A

시사점

비디오 - 사운드트랙, 대사를 바탕으로 학습한 인공신경망입니다. 이는 전에 이야기 했다시피 패턴화될 수 있는 직업은 대체 가능성이 있다는 것을 시사합니다. 이는 V2A만 가지고 이야기하는 것은 아닙니다. 사운드 효과 디자이너, 영상 디자이너, 프로그래머, 사진가 등 다양한 직업에 영향이 있을 수 밖에 없을 것입니다.

참고 : Generating audio for video