Alibaba 연구원들은 인물 사진에서 사실적인 말하기 및 노래 비디오를 만들 수 있는 AI 시스템인 EMO(Emote Portrait Alive)에 대해 자세히 설명합니다
- 알리바바의 지능형 컴퓨팅 연구소에서 'EMO'(Emote Portrait Alive)라는 새로운 인공지능 시스템 개발
- EMO는 단일 초상 사진을 애니메이션화하고, 해당 인물이 말하거나 노래하는 비디오를 현실적인 방식으로 생성 가능
- 제공된 오디오 트랙의 뉘앙스와 밀접하게 일치하는 유동적이고 표현력있는 얼굴 움직임과 머리 자세를 만들어 냄
- 이는 오디오 주도 말하는 머리 비디오 생성 분야에서의 중요한 발전
- EMO는 직접 오디오를 비디오로 전환하는 방법을 사용
- EMO 시스템은 합성 이미지를 현실적으로 생성하는 뛰어난 능력을 보여준 확산 모델이라는 인공지능 기술을 비롯
- 비디오 품질, 정체성 유지, 표현력 측정 지표에 기존 최첨단 방법보다 EMO가 훨씬 우수하다는 연구 결과 발표
- EMO는 노래하는 초상화를 적절한 입 모양과 보컬에 맞춘 표정으로 애니메이션화 할 수 있으며, 입력 오디오의 길이에 따라 임의의 기간 동안 비디오를 생성하는 것을 지원
- EMO 연구는 단지 사진과 오디오 클립만으로 개인화된 비디오 콘텐츠를 합성할 수 있는 미래를 예고하고 있지만, 사람들을 동의 없이 흉내내거나 오보를 퍼트리는 등의 기술 악용에 대한 윤리적 고려사항 있음을 지적
- 연구자들은 합성 비디오를 감지하는 방법을 탐구할 계획이라고 밝힘.
4venturebeat.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.