Stability AI가 텍스트에서 오디오 사운드를 생성하는 Stable Audio 공개
텍스트 프롬프트를 입력하면 사운드를 만들어 주는 모델.
diffusion model을 사용하여 이미지 대신 음악을 사용하여 훈련됨.
AudioSparks의 8만개의 라이센스가 있는 사운드를 통해 학습함.
무료와 유료 버전을 출시. 무료는 20초짜리 음악을 월 20번 생성 가능. 프로는 90초 짜리 사운드를 500번 생성 가능. (월 12달러)
내 생각
이미 사운드 생성 모델은 많기 때문에 text to speech 모델을 오픈소스화 했으면 어땠을까 하는 생각이 드네요. 하지만 기존 diffusion 기술을 사용한다는 것에서 좀 이해가 갔습니다.
그래도 자본력이 있기 때문에 8만개의 라이센스 음악을 구입해서 트레이닝 하는 연구와 제품 런칭을 할 수 있는 것 같습니다.
공유하기
조회수 : 366