메타의 음성 생성 AI - Voicebox

메타에서 음성을 생성할 수 있는 AI인 voicebox에 대한 논문과 오디오 샘플을 공유했습니다. 다음과 같은 일들이 가능하다고 합니다.

보이스박스는 6개 국어로 음성을 합성할 수 있습니다. text to speech를 6개의 언어로 표현할 수 있습니다.
스타일 트랜스퍼 : 특정 목소리의 스타일을 참고하여 해당 스타일로 말하는 음성을 6개 국어로 작성할 수 있습니다.
노이즈 제거 및 음성 편집 : 배경음에서 특정 노이즈를 지울 수 있고 (예를 들면 개가 짖는 소리 없애기), 잘못 발음한 부분이 있을 때 전체를 수정할 필요 없이 일부를 수정할 수 있습니다.
여러 스타일의 보이스 샘플 작성 : 하나의 텍스트를 여러 스타일의 음성으로 만들어 낼 수 있습니다.

출처 : Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance

꽤 다양한 일을 할 수 있네요. 음성 합성 기능은 꽤 유용할 것 같습니다. 스타일 트랜스퍼 기능은 강력하기는 한데 위험성도 내포하고 있는것 같습니다. 음성 샘플만으로 해당 화자의 목소리를 만들어 낼 수 있다면 위험할 수 도 있는 것 같습니다. 메타에서도 이 일을 잘 알고 있으며 생성된 음성을 식별하는 classifier를 만들었고 코드와 모델은 공개하지 않고 페이퍼와 샘플만 공개한다고 합니다.

앞으로의 인터넷은 음성 인터페이스가 좀 더 많아지게 될까요? 음성 합성 (Text To Speech) 나 음성을 텍스트로 바꾸기 (Speech To Text) 인터페이스는 늘어날것 같기는 합니다.

메타의 음성 생성 AI - Voicebox

키워드만 입력하면 나만의 학습 노트가 완성돼요.