Google의 Veo 3 AI는 현실적인 윌 스미스 비디오 클론을 생성하지만 음향 효과에는 어려움을 겪는다.

2025-05-23

구글이 Veo 3라는 새로운 AI 비디오 합성 모델을 출시하여 동기화된 오디오 트랙을 처음으로 생성할 수 있는 능력을 선보임.
2022년부터 2024년까지 AI 비디오 생성 초기 단계에서는 비디오가 대부분 무음이고 짧은 길이였으며, 이제 8초의 고화질 비디오 클립에서 목소리, 대화, 음향 효과를 들을 수 있음.
새로운 모델 출시 직후 사용자들은 오스카 수상 배우 윌 스미스가 스파게티를 먹는 모습을 얼마나 잘 모방하는지 평가하고자 함.
2023년 3월, 오픈 소스 비디오 합성 모델 ModelScope을 사용한 끔찍한 AI 생성 비디오를 처음으로 사용하여 스파게티 벤치마크가 시작됐으며, 이는 이후 유명해져 윌 스미스가 2024년 2월에 패러디하기에 이름.
당시 최고 AI 비디오 생성 모델은 아니었지만 ModelScope 결과가 재미있고 이상하여 초기의 저품질 비디오 합성 사례로 기억됨.
Javi Lopez는 이번 주에 Veo 3를 사용하여 스파게티 테스트를 수행하고 X에 결과를 게시함.
Veo 3의 실험적 음향 효과 적용 기능에서 문제가 발생, 가짜 스미스가 스파게티를 씹는 소리가 들림.
구글 AI 모델의 훈련 데이터에 씹는 소리와 관련된 많은 예시가 포함되어 있어 발생한 현상이며, 생성 AI 모델은 다양한 미디어 유형의 예시를 충분히 보여주어야 함.

3arstechnica.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.