Alibaba 의 EMO - 이미지와 음성을 입력하면 해당 음성으로 말하는 아바타를 생성하는 AI 모델

EMO

알리바바는 전자 상거래 사업으로 유명하지만 기술 개발 프로젝트에도 많은 투자를 하고 있습니다. 그 중에서도 알리바바의 지능형 컴퓨팅 연구소에서 개발한 AI 비디오 생성 모델인 EMO가 주목받고 있습니다.

EMO는 "Emote Portrait Alive"의 약자로, 이미지와 음성 오디오를 사용하여 해당 목소리로 말하고 표정을 짓는 아바타 비디오로 변환하는 기술입니다. 이 모델은 실제 음성과 동기화된 입술 움직임을 지원하며, 여러 언어를 지원합니다. 사진, 그림 또는 애니메이션 스타일의 이미지도 입력이 가능합니다.

Alibaba 의 EMO - 이미지와 음성을 입력하면 해당 음성으로 말하는 아바타를 생성하는 AI 모델 image 1

이미지 : 이런 식으로 음성 파일과 이미지를 입력하면 해당 음성으로 말하고 표정을 짓는 아바타가 만들어 집니다.

예를 들어 다음과 같은 일들이 가능합니다.

오드리 헵번이 Ed Sheeran의 커버곡을 불러보는 모습 구현하기

모나리자 이미지가 마일리 싸이러스의 "Flowers"를 부르게 할 수 도 있습니다.

OpenAI의 SORA에서 공개한 선글라스를 쓴 여성 이미지를 사용하여 Dua Lipa의 "Don’t Start Now"를 부르게 할 수 있습니다.

EMO는 초기 버전이지만, 입술 움직임이 입력 오디오에 매우 정확하게 일치하는 특성이 있습니다. 이 모델은 Stable Diffusion 기반으로 구축되었으며, 미세한 피부 효과와 가끔씩 눈에 띄는 입 움직임과 같은 미완성 부분이 있지만, 전반적으로 입술 움직임의 정확도가 높습니다.

EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions 에서 논문을 확인할 수 있습니다.

생각

동영상의 얼굴과 입술의 모양과 음성의 패턴을 학습한 것 같다. kpop 부르는 장면에서는 놀랐다. 여러 언어의 비디오를 바탕으로 학습한 것 같다.

모델을 공개하지는 않은게 다행인것 같은데 딥페이크 등을 생성할 수 있는 기술의 오픈소스화는 정말 조심해야 한다고 생각한다. 이런 기술이 가능하다는 걸 알아야 사람들이 조심할 수 있을 것 같기도 하다.

긍정적으로 생각해 보면 광고에서 이런 방식으로 다양한 모델들을 사용하거나 음성 기반의 콘텐츠에 아바타를 입히기가 쉬워질 것 같기도 하다.