Alibaba 연구원들은 인물 사진에서 사실적인 말하기 및 노래 비디오를 만들 수 있는 AI 시스템인 EMO(Emote Portrait Alive)에 대해 자세히 설명합니다

2024-03-01

알리바바의 지능형 컴퓨팅 연구소에서 'EMO'(Emote Portrait Alive)라는 새로운 인공지능 시스템 개발
EMO는 단일 초상 사진을 애니메이션화하고, 해당 인물이 말하거나 노래하는 비디오를 현실적인 방식으로 생성 가능
제공된 오디오 트랙의 뉘앙스와 밀접하게 일치하는 유동적이고 표현력있는 얼굴 움직임과 머리 자세를 만들어 냄
이는 오디오 주도 말하는 머리 비디오 생성 분야에서의 중요한 발전
EMO는 직접 오디오를 비디오로 전환하는 방법을 사용
EMO 시스템은 합성 이미지를 현실적으로 생성하는 뛰어난 능력을 보여준 확산 모델이라는 인공지능 기술을 비롯
비디오 품질, 정체성 유지, 표현력 측정 지표에 기존 최첨단 방법보다 EMO가 훨씬 우수하다는 연구 결과 발표
EMO는 노래하는 초상화를 적절한 입 모양과 보컬에 맞춘 표정으로 애니메이션화 할 수 있으며, 입력 오디오의 길이에 따라 임의의 기간 동안 비디오를 생성하는 것을 지원
EMO 연구는 단지 사진과 오디오 클립만으로 개인화된 비디오 콘텐츠를 합성할 수 있는 미래를 예고하고 있지만, 사람들을 동의 없이 흉내내거나 오보를 퍼트리는 등의 기술 악용에 대한 윤리적 고려사항 있음을 지적
연구자들은 합성 비디오를 감지하는 방법을 탐구할 계획이라고 밝힘.

4venturebeat.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.