검색
검색
공개 노트 검색
회원가입로그인

VALL-E (발리) - 3초의 음성만으로 해당 화자의 음성으로 말할 수 있는 인공지능

3초의 음성만 있으면 해당 화자의 음성으로 말을 할 수 있는 마이크로소프트의 인공지능 음성 합성 기술.

제로샷 러닝을 사용했다. 제로샷 러닝은 모델이 학습과정에서 배우지 않은 일을 수행 하는 것이다.

논문 페이퍼와 데모를 공개했다. VALL-E

사이트에서 보면 오용될 가능성이 있다고 밝히고 이렇게 만들어진 음성을 구분할 수 있는 모델이 함께 나와야 한다고 이야기하고 있다.

VALL-E (발리) - 3초의 음성만으로 해당 화자의 음성으로 말할 수 있는 인공지능 image 1

조회수 : 423
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기