3초의 음성만 있으면 해당 화자의 음성으로 말을 할 수 있는 마이크로소프트의 인공지능 음성 합성 기술.
제로샷 러닝을 사용했다. 제로샷 러닝은 모델이 학습과정에서 배우지 않은 일을 수행 하는 것이다.
논문 페이퍼와 데모를 공개했다. VALL-E
사이트에서 보면 오용될 가능성이 있다고 밝히고 이렇게 만들어진 음성을 구분할 수 있는 모델이 함께 나와야 한다고 이야기하고 있다.