메타의 음성 생성 AI - Voicebox
메타에서 음성을 생성할 수 있는 AI인 voicebox에 대한 논문과 오디오 샘플을 공유했습니다. 다음과 같은 일들이 가능하다고 합니다.
보이스박스는 6개 국어로 음성을 합성할 수 있습니다. text to speech를 6개의 언어로 표현할 수 있습니다.
스타일 트랜스퍼 : 특정 목소리의 스타일을 참고하여 해당 스타일로 말하는 음성을 6개 국어로 작성할 수 있습니다.
노이즈 제거 및 음성 편집 : 배경음에서 특정 노이즈를 지울 수 있고 (예를 들면 개가 짖는 소리 없애기), 잘못 발음한 부분이 있을 때 전체를 수정할 필요 없이 일부를 수정할 수 있습니다.
여러 스타일의 보이스 샘플 작성 : 하나의 텍스트를 여러 스타일의 음성으로 만들어 낼 수 있습니다.
꽤 다양한 일을 할 수 있네요. 음성 합성 기능은 꽤 유용할 것 같습니다. 스타일 트랜스퍼 기능은 강력하기는 한데 위험성도 내포하고 있는것 같습니다. 음성 샘플만으로 해당 화자의 목소리를 만들어 낼 수 있다면 위험할 수 도 있는 것 같습니다. 메타에서도 이 일을 잘 알고 있으며 생성된 음성을 식별하는 classifier를 만들었고 코드와 모델은 공개하지 않고 페이퍼와 샘플만 공개한다고 합니다.
앞으로의 인터넷은 음성 인터페이스가 좀 더 많아지게 될까요? 음성 합성 (Text To Speech) 나 음성을 텍스트로 바꾸기 (Speech To Text) 인터페이스는 늘어날것 같기는 합니다.
키워드만 입력하면 나만의 학습 노트가 완성돼요.
책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.
콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.