NVIDIA Fugatto (푸가토)

엔비디아(NVIDIA)는 2024년 11월 25일에 혁신적인 생성형 AI 모델인 Fugatto(Foundational Generative Audio Transformer Opus 1)를 공개했습니다.

이 모델은 음악, 음성 및 다양한 소리를 텍스트 프롬프트와 오디오 파일을 활용해 생성하거나 변형할 수 있습니다.

Fugatto는 음악 작곡, 광고, 언어 학습, 게임 개발 등 다양한 분야에서 창작자들에게 새로운 가능성을 열어줄 수 있는 도구로 기대되고 있습니다.

엔비디아, 혁신적인 생성형 사운드 AI 모델 Fugatto 공개 image 1

Fugatto의 기술적 배경

Fugatto는 엔비디아의 응용 오디오 연구팀에 의해 개발되었으며, 이 팀은 오케스트라 지휘자이자 작곡가인 라파엘 발레의 지휘 아래 다양한 분야의 전문가들로 구성되었습니다. Fugatto는 텍스트와 오디오 데이터를 활용하여 다양한 오디오 생성 및 변형 작업을 수행할 수 있도록 훈련되었습니다. 이 모델은 초창기의 생성형 AI 모델과는 달리, 창발성(emergent properties)을 통해 훈련 데이터에 포함되지 않은 새로운 작업도 수행할 수 있습니다

기능 및 응용 사례

음악 제작

음악 프로듀서들은 Fugatto를 사용하여 곡의 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있습니다. 다양한 스타일, 목소리, 악기를 시도해 볼 수 있으며, 효과를 추가하거나 기존 트랙의 전체 오디오 품질을 향상시킬 수 있습니다. 또한 Fugatto는 프롬프트를 통해 완전히 새로운 사운드를 생성할 수 있는 능력을 갖추고 있습니다.

언어 학습

언어 학습 도구에서는 사용자가 선택한 목소리를 사용하도록 개인화가 가능합니다. 이를 통해 가족이나 친구의 목소리로 온라인 강의를 들을 수 있으며, 더욱 풍부한 학습 경험을 제공할 수 있습니다.

게임 개발

비디오 게임 개발자들은 Fugatto를 통해 게임 플레이 중 변화하는 동작에 맞추어 타이틀에 미리 녹음된 애셋을 수정할 수 있습니다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 새로운 애셋을 즉석에서 생성하는 것도 가능합니다.

새로운 사운드의 세계를 열다: 생성형 AI 모델 ‘Fugatto’ 공개 - NVIDIA Blog Korea

Fugatto AI Audio Generator - Create Unique Sounds and Music with AI (여기에서 대기자 신청 가능)