메인 콘텐츠로 건너뛰기
page thumbnail

AI 인공지능의 혁명: 이미지 확산 모델이 비디오에서 시간 추적을 배우다

복잡하게만 느껴졌던 AI의 세계, 이번에는 이미지 확산 모델이 비디오 분석에까지 확장되는 놀라운 혁신을 소개합니다. 기존에 사진을 만들거나 편집하는 데만 쓰는 줄 알았던 이미지 생성 AI가, 이제는 영상 속 객체 추적과 분할에도 뛰어난 실력을 뽐내기 시작했어요. 궁금하셨죠? 오늘은 'Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos' 논문을 바탕으로, 최신 AI 모델이 어떻게 비디오 내 객체를 추적하고 변화까지 포착하는지 쉽게 풀어드리겠습니다.

이미지 확산 모델이란 무엇일까? 미술가에서 해설자로의 진화

이미지 확산 모델(diffusion model)은 최근 떠오르는 AI 기술 중 하나로, 원래는 '노이즈에서 이미지를 그려내는 똑똑한 화가'였습니다. 사진을 몇 장 보여주면, 비슷한 이미지를 창조하거나, 기존 이미지를 새롭게 바꿔주는 게 주특기였죠. 그런데 최근 연구들은 이 모델이 단순한 화가가 아니라, 이미지 속 의미나 패턴을 깊게 이해하는 '해설자'로도 활용할 수 있다는 사실을 밝혀냈습니다.

이 모델의 내부 메커니즘인 자기 주의(attention) 맵은, 이미지 내 여러 부분들이 어떻게 연결되고 영향을 주는지 파악합니다. 이를 활용하면, 단순히 이미지를 만들어내는 데 그치지 않고 ‘여기는 고양이의 귀, 저기는 꼬리’처럼 이미지 내 객체의 구조와 위치까지 파악할 수 있답니다.

비디오 시대! 시간 속에서 객체 추적하는 AI의 비밀

이제 재미있는 파트로 넘어가 볼까요? 이미지 확산 모델의 주목할 만한 업그레이드는 바로 '시간 전파(temporal propagation)'입니다. 즉, 한 장의 이미지에서의 대응 관계(예: 고양이의 귀와 꼬리 위치)를 여러 프레임에 걸쳐 확장함으로써, 영상 속 객체가 어떻게 움직이는지까지 잡아낼 수 있게 된 것이죠.

사실 기존의 비디오 분석 AI는 별도의 동영상 데이터로 훈련되거나 복잡한 피처 매칭 알고리즘이 필요했습니다. 하지만 연구진은 이미지 확산 모델이 훈련 때 전혀 비디오를 본 적이 없음에도 불구하고, 영상 내에서 ‘픽셀 수준의 의미 전달’과 ‘객체 추적’을 자동으로 해낸다는 사실을 밝혀냈습니다.

이를 더 쉽게 생각해보면, 한 편의 영상에서 등장하는 강아지가 수영장에서 뛰어다녀도, 이 AI는 첫 프레임의 꼬리 위치를 다음 프레임까지 이어주고, 계속 추적해 나가는 셈입니다. 놀랍죠?

DRIFT 프레임워크: 사전학습된 AI의 위력과 Mask 정제 기술의 결합

이 연구를 통해 탄생한 DRIFT 프레임워크는 사전학습된 이미지 확산 모델을 활용해 영상 객체 추적을 극대화합니다. 즉, 전용 비디오 데이터 없이도 Video Object Segmentation(객체 분할) 벤치마크를 뛰어넘는 결과를 얻어낸 것이죠.

DRIFT의 강점은 두 가지:

  1. 이미지를 기반으로 한 자기 주의 정보로 프레임 간 라벨을 전파

  2. Meta의 SAM(Segment Anything Model) 기술을 접목, 마스크를 더 정교하게 함

특히 SAM은 단어나 문장으로 묘사한 대상을 이미지는 물론 영상에서도 자동으로 찾아내고, 3D 정보로까지 확장하는 최신 AI 기술입니다.

SAM을 활용한 객체 분할 예시 (예: 다양한 동물 및 사물의 정확한 마스크 추출)

DRIFT는 이런 마스크 정제 기능을 덧붙여서, 영상 내 객체를 더 정확하게 추적하고, 그 변화까지 세밀하게 따라갑니다.

테스트 시간 최적화: 진짜 현장에서 필요한 AI 똑똑하게 만드는 법

단순한 모델만으론 부족합니다. DRIFT는 실제 영상 분석 과정에서도 최적화를 추구합니다. 대표적으로 적용된 세 가지 전략이 바로,

  • DDIM 역전(inversion): 이미지 노이즈를 되돌려 의미 정보를 잘 보존하도록 함

  • 텍스트 역전(textual inversion): 마스크별로 개별 프롬프트(예: “파란 티셔츠를 입은 사람”)를 활용, 객체 추적을 세밀하게 조절

  • 적응형 헤드 가중치(adaptive head weighting): 여러 자기 주의 패턴을 조합해 마스크 품질과 추적 일관성을 극대화

이런 기법들은 실제로 ‘영상을 보는 순간순간’(테스트 타임)에 모델이 스스로 더 똑똑하게 일하도록 만들어줍니다. 한 마디로 현장 대응 능력까지 갖춘 AI라 할 수 있습니다.

객체 추적, 영상 편집, 3D 모델링까지: 확산 AI가 여는 미래

이 기술들이 실제로 어떻게 활용될 수 있을까요?

  • 영상 속 사람 또는 사물 자동 분리 및 추적

  • ‘노란 모자를 쓴 남자’처럼, 텍스트로 특정 객체만 편집

  • 단일 이미지로 3D 오브젝트 재구성

  • 사전 학습 AI 모델의 혁신적인 재활용(Zero-shot Learning)

메타(구 페이스북)의 최신 SAM 3/SAM 3D 모델도 이런 객체 추적·분할·3D 재구성에 최적화되어 있습니다. 지루했던 영상 편집이, 이제는 “말로 원하는 부분만 골라서” 바로 바꿀 수 있는 세상으로 다가오고 있습니다.

마무리: 그냥 이미지 만들던 AI가, 동영상을 읽고 변화까지 추적한다!

이번 연구는 이미지 확산 모델이 단순 창작 도구를 넘어, 눈앞의 영상 정보를 시각적으로 분석하고 시간적 변화까지 똑똑하게 따라가는 AI로 진화함을 보여줍니다. 사전학습 이미지 확산 모델만 잘 활용해도, 별도의 비디오 훈련 없이 영상 객체 추적·분할·편집까지 척척 해내는 시대가 열린 것이죠.

기술의 진보로, AI 활용은 더 쉽고 강력해집니다. 앞으로 영상 편집, 객체 추적, AR/VR, 로봇 비전 등 다양한 분야에서 이런 확산 모델의 혁신이 파도처럼 밀려올 것입니다. ‘이미지 생성’만 떠올렸던 확산 모델의 새로운 가능성, 지금부터 여러분도 눈여겨보시길 추천드립니다.

참고

[1] Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos - arXiv

[2] Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos (HTML Version) - arXiv

[3] New Segment Anything Models Make it Easier to Detect Objects and Create 3D Reconstructions - Meta Newsroom