검색
검색
공개 노트 검색
회원가입로그인

Adobe MultiFoley - 사운드 효과음을 생성하는 AI

Adobe MultiFoley

개요

Adobe의 새로운 모델, MultiFoley는 비디오 컨텐츠에 맞는 폴리 사운드(효과음)를 생성하기 위해 개발되었습니다. 이 모델은 텍스트, 오디오, 비디오 입력을 기반으로 고품질의 사운드 효과를 생성합니다. MultiFoley는 University of Michigan과 Adobe Research가 공동으로 개발한 시스템으로, 예술적인 사운드 이펙트를 생성하고자 하는 비디오 제작자들에게 새로운 가능성을 열어줍니다[1][2].

기술 개요

MultiFoley는 비디오에 맞는 사운드를 생성하기 위해 멀티모달 조건 입력을 활용합니다. 이를 통해 사용자들은 텍스트 프롬프트를 통해 특정 사운드를 생성하거나, 기존 사운드 이펙트 라이브러리의 레퍼런스 오디오를 사용하여 사운드 스타일을 지정할 수 있습니다[2].

주요 기능

  1. 텍스트 컨트롤 폴리 생성: 비디오에 맞는 사운드를 생성하기 위해 텍스트 프롬프트를 사용합니다. 예를 들어, "사자 울음소리, 고품질"이라는 텍스트 입력을 통해 비디오에 맞는 사자 울음소리를 생성할 수 있습니다[1].

  2. 오디오 컨트롤 폴리 생성: 사운드 이펙트 라이브러리의 레퍼런스 오디오를 사용하여 비디오에 맞게 사운드를 생성합니다. 이 방식은 기존 사운드 스타일을 유지하면서 비디오에 맞는 사운드를 생성할 수 있습니다[2].

  3. 오디오 확장: 부분적으로 소리가 있는 비디오에 대해 전체 폴리 사운드를 생성합니다. 예를 들어, 비디오의 일부에만 소리가 있는 경우, MultiFoley는 나머지 비디오 부분에 맞는 추가 사운드를 생성합니다[2].

기술적 접근

MultiFoley는 고품질의 전체 대역폭(48kHz) 오디오 생성을 위해 인터넷 비디오 데이터셋과 전문가용 사운드 이펙트(SFX) 녹음을 결합한 공동 학습을 통해 훈련되었습니다. 이러한 접근법을 통해 정확한 텍스트 기반 맞춤화를 가능하게 하고, 자동 평가 및 인간 연구를 통해 MultiFoley의 성능을 입증하였습니다[3][4].

활용 분야

MultiFoley는 비디오 제작, 영화 산업, 게임 개발 및 다양한 창의적인 분야에서 활용될 수 있습니다. 기존의 폴리 아티스트가 했던 작업을 자동화함으로써 시간과 비용을 절약할 수 있습니다. 예를 들어, 종이로 따뜻한 불소리를 내고, 코코넛 껍질로 말 발굽 소리를 내던 전통적인 폴리 아티스트의 작업을 MultiFoley가 대신할 수 있습니다[4].

결론

MultiFoley는 비디오 콘텐츠에 맞는 예술적 사운드 이펙트를 자동으로 생성할 수 있는 혁신적인 도구입니다. 멀티모달 조건 입력을 통해 텍스트, 오디오, 비디오를 사용해 사용자들이 원하는 스타일의 사운드를 비디오에 동기화할 수 있습니다. MultiFoley는 기존의 사운드 이펙트 생성 방법을 혁신적으로 개선할 수 있는 잠재력을 가지고 있으며, 향후 다양한 창의적 응용 분야에서 중요한 역할을 할 것으로 기대됩니다[1][3][4].

참고

[1]. Multimodal Controls를 사용한 Video-Guided Foley 사운드 생성

[2]. [2411.17698] 멀티모달 컨트롤을 사용한 비디오 가이드 폴리 사운드 생성](https://arxiv.org/abs/2411.17698)

[3]. 사운드 디자인 MultiFoley의 미래 - 멀티모달 컨트롤을 통한 AI의 비디오 더빙

[4]. 새로운 Adobe 모델 "MultiFoley"는 영화에 적합한 사운드를 생성합니다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 340
heart
T
페이지 기반 대답
AI Chat