3초의 음성만 있으면 해당 화자의 음성으로 말을 할 수 있는 마이크로소프트의 인공지능 음성 합성 기술.

제로샷 러닝을 사용했다. 제로샷 러닝은 모델이 학습과정에서 배우지 않은 일을 수행 하는 것이다.

논문 페이퍼와 데모를 공개했다. [VALL-E](https://valle-demo.github.io/)

사이트에서 보면 오용될 가능성이 있다고 밝히고 이렇게 만들어진 음성을 구분할 수 있는 모델이 함께 나와야 한다고 이야기하고 있다.

![](https://server.tilnote.io/images/pages/5210e5af-a5e1-4a17-bbd0-df08940fafc1.jpg)

3초의 음성만 있으면 해당 화자의 음성으로 말을 할 수 있는 마이크로소프트의 인공지능 음성 합성 기술.제로샷 러닝을 사용했다. 제로샷 러닝은 모델이 학습과정에서 배우지 않은 일을 수행 하는 것이다.논문 페이퍼와 데모를 공개했다. <a href="https://valle-demo.github.io/">VALL-E</a>사이트에서 보면 오용될 가능성이 있다고 밝히고 이렇게 만들어진 음성을 구분할 수 있는 모델이 함께 나와야 한다고 이야기하고 있다.<img src="https://server.tilnote.io/images/pages/5210e5af-a5e1-4a17-bbd0-df08940fafc1.jpg" alt="VALL-E (발리) - 3초의 음성만으로 해당 화자의 음성으로 말할 수 있는 인공지능 image 1">