검색
회원가입로그인

중국의 AI 영상 생성 기술, 글로벌 리더십 확보 및 물리적 현실성 구현 척도 강화

요약
  • 중국의 AI 영상 생성 모델들은 물리적 법칙 준수와 복잡한 운동 표현에서 큰 발전을 이뤘습니다.

  • 알리바바, 계약성진, 생성수과기 등의 기업들이 혁신적인 모델을 오픈 소스로 공개하고 있습니다.

  • 이러한 기술들은 다양한 산업 분야에서 사용되어 콘텐츠 제작과 교육 등에 혁신을 가져올 것으로 기대됩니다.

최근 중국의 인공지능(AI) 영상 생성 기술 분야에서 물리적 세계의 복잡한 움직임과 상호작용을 매우 높은 수준으로 구현하는 동영상 모델들이 잇따라 출시되며 전 세계적인 주목을 받고 있습니다. 특히 알리바바의 '만상(Wanxiang) 2.1', 계약성진(StepFun)의 'Step-Video-T2V', 생성수과기(Shengshu Technology)와 칭화대학이 공동 개발한 'Vidu Q1', 콰이쇼우(Kuaishou)의 '클링(Keling)' 등은 기존 모델들의 한계를 넘어서는 성능을 보여주며, 물리적 법칙 준수, 복잡한 운동 표현, 높은 시각적 품질, 정교한 제어 가능성 등에서 괄목할 만한 성과를 달성했습니다. 이러한 모델들은 오픈 소스 형태로 공개되어 기술 생태계 발전에 기여하고 있으며, 일부는 소비자용 GPU에서도 실행 가능하여 접근성을 높였습니다. 중국 AI 기업들은 텍스트-비디오 변환 기술에서 물리적 합리성, 운동의 자연스러움, 시네마틱 품질 구현에 중점을 두고 있으며, 이는 OpenAI의 Sora, Runway의 Gen-3 Alpha 등 글로벌 경쟁 모델들과 어깨를 나란히 하거나 특정 지표에서는 능가하는 수준에 도달했음을 시사합니다. 이러한 발전은 중국이 AI, 특히 멀티모달 및 비디오 생성 분야에서 빠르게 기술 리더십을 확보하고 있음을 보여주는 중요한 지표입니다.

중국 AI 영상 생성 모델의 발전과 물리적 현실성 구현

AI 영상 생성 기술의 부상과 중요성

텍스트 설명이나 이미지를 기반으로 동영상을 생성하는 AI 기술은 최근 몇 년간 눈부신 발전을 거듭하며, 콘텐츠 제작, 엔터테인먼트, 교육, 시뮬레이션 등 다양한 분야에서 혁신적인 변화를 예고하고 있습니다. 특히 물리적 세계의 법칙을 이해하고 이를 영상 속에서 자연스럽게 구현하는 능력은 AI 영상 생성 모델의 성능을 평가하는 핵심적인 척도 중 하나로 부상했습니다. 초기 모델들은 단순한 움직임이나 정적인 장면 생성에는 성공했지만, 복잡한 상호작용, 역동적인 움직임, 물리적 현상(중력, 충돌, 유체 흐름 등)을 정확하고 일관성 있게 표현하는 데에는 한계를 보여왔습니다. 이러한 한계를 극복하고 높은 수준의 물리적 현실성(physical plausibility)복잡한 운동 표현(complex motion representation) 을 달성하는 것이 현재 AI 영상 생성 분야의 주요 연구 목표가 되고 있습니다.

중국 AI 기업들의 약진

이러한 기술 경쟁 속에서 중국의 AI 기업들은 괄목할 만한 성과를 내놓으며 글로벌 리더 그룹으로 빠르게 부상하고 있습니다. 알리바바, 바이트댄스(틱톡 모회사), 콰이쇼우, 생성수과기, 계약성진 등 중국의 주요 테크 기업 및 스타트업들은 자체적인 대규모 영상 생성 모델 개발에 적극적으로 투자하며 기술 혁신을 주도하고 있습니다. 이들 기업이 개발한 모델들은 단순히 영상을 생성하는 것을 넘어, 물리 법칙을 준수하고, 복잡하고 역동적인 움직임을 정확하게 묘사하며, 시네마틱 수준의 고화질 영상을 생성하는 능력을 보여주고 있습니다. 또한, 일부 모델들은 영상 내 객체의 위치, 크기, 움직임 등을 사용자가 정교하게 제어할 수 있는 기능을 제공하여, 창작의 자유도를 높이고 보다 정밀한 영상 제작을 가능하게 합니다. 특히 오픈 소스 형태로 모델과 코드를 공개하는 전략은, 전 세계 개발자 커뮤니티의 참여를 유도하고 관련 기술 생태계의 발전을 가속화하는 중요한 동력이 되고 있습니다. 이는 중국이 AI 영상 생성 분야에서 단순한 기술 추격자를 넘어, 혁신을 선도하는 주요 플레이어로 자리매김하고 있음을 시사합니다.

주요 모델 분석: Step-Video-T2V

계약성진(StepFun)의 야심작

계약성진(StepFun, Jieyue Xingchen)은 길리 자동차 그룹과의 협력을 통해 2025년 2월, 'Step-Video-T2V' 라는 획기적인 영상 생성 모델을 오픈 소스로 공개했습니다. 이 모델은 공개 당시 기준으로 전 세계에서 파라미터 수가 가장 큰(300억 개) 오픈 소스 비디오 생성 모델로 기록되었으며, 이는 AI 영상 생성 분야의 기술적 진보를 보여주는 중요한 이정표가 되었습니다. Step-Video-T2V는 특히 복잡한 물리적 움직임을 높은 정확도로 구현하는 데 강점을 보이며, 기존 모델들이 어려움을 겪었던 스포츠 동작(예: 배드민턴), 댄스, 무술 등의 장면 생성에서 인상적인 성능을 나타냅니다.

이미지를 불러올 수 없습니다

핵심 기술 및 성능

Step-Video-T2V의 뛰어난 성능은 몇 가지 핵심 기술에 기반합니다. 첫째, 고압축률 Video-VAE(Variational Autoencoder) 를 자체 개발하여 적용했습니다. 이 Video-VAE는 영상의 공간 차원을 16x16배, 시간 차원을 8배 압축하여, 기존 VAE(통상 8x8x4배 압축) 대비 8배 높은 압축률을 달성했습니다. 이를 통해 훈련 및 생성 효율성을 64배 향상시켰다고 밝혔습니다. 둘째, DiT(Diffusion Transformer) 모델의 하이퍼파라미터, 구조, 훈련 효율성을 최적화하여 훈련 과정의 효율성과 안정성을 확보했습니다. 셋째, 훈련 마지막 단계에 Video-DPO(Direct Preference Optimization for Video) 라는 강화학습 기반 최적화 알고리즘을 도입하여 생성된 영상의 움직임 부드러움, 디테일 풍부함, 지시 사항 준수 정확도를 더욱 향상시켰습니다.

Step-Video-T2V-Eval 벤치마크 결과<span class="footnote-wrapper">[37]</span>

Step-Video-T2V-Eval 벤치마크 결과

이러한 기술력을 바탕으로 Step-Video-T2V는 계약성진이 자체 개발하여 함께 공개한 벤치마크 데이터셋 'Step-Video-T2V-Eval' 에서 뛰어난 성능을 입증했습니다. 이 데이터셋은 실제 사용자들의 128개 중국어 평가 질문으로 구성되어 있으며, 운동, 풍경, 동물, 초현실 등 11개 카테고리에서 생성된 비디오의 품질을 평가합니다. 평가 결과, Step-Video-T2V는 지시 사항 준수(instruction following), 운동의 부드러움(motion smoothness), 물리적 합리성(physical plausibility), 미학적 완성도(aesthetics) 등 여러 측면에서 기존 최고의 오픈 소스 영상 모델들을 능가하는 성능을 보였습니다. 이는 영상 생성 분야 전체가 이 새로운 강력한 기반 모델 위에서 연구와 혁신을 진행할 수 있게 되었음을 의미합니다.

주요 기능 및 특징

Step-Video-T2V는 다음과 같은 다양한 기능을 제공합니다:

  • 복잡한 운동 표현: 앞서 언급한 스포츠, 댄스 외에도 다양한 복잡한 움직임을 자연스럽게 생성합니다.

  • 미적 인물 생성: 정지 이미지뿐만 아니라 움직이는 영상에서도 자연스럽고 생생한 인물을 생성합니다. 인물의 피부 질감, 표정 변화 등이 매우 사실적으로 표현됩니다.

  • 카메라 워크 제어: 패닝(panning), 틸팅(tilting), 회전(rotating), 추적(following) 등 다양한 카메라 움직임을 지시에 따라 구현할 수 있습니다.

  • 텍스트 생성: 영상 내에 기본적인 텍스트를 생성하는 기능을 지원합니다.

  • 다국어 지원: 중국어와 영어를 모두 네이티브로 지원하여 입력 프롬프트의 제약을 줄였습니다.

  • 고해상도 및 길이: 최대 204프레임, 540p 해상도의 비디오를 직접 생성할 수 있습니다.

이미지를 불러올 수 없습니다

이미지를 불러올 수 없습니다

오픈 소스 생태계 기여

Step-Video-T2V는 MIT 라이선스 하에 공개되어, 연구 및 상업적 목적을 포함하여 누구나 자유롭게 편집하고 사용할 수 있습니다. 이는 계약성진이 AI 기술의 공유와 혁신을 촉진하고 인공지능의 보편적 발전에 기여하고자 하는 의지를 보여주는 것입니다. 또한, Step-Video-T2V-Eval 벤치마크 데이터셋을 함께 공개함으로써, 향후 다른 영상 생성 모델들의 성능을 객관적으로 비교하고 평가할 수 있는 기준을 제공했다는 점에서도 의미가 큽니다. 이러한 개방적인 접근 방식은 중국의 AI 오픈 소스 생태계를 강화하고, 글로벌 AI 커뮤니티와의 협력을 촉진하는 데 기여할 것으로 기대됩니다.

주요 모델 분석: 만상 2.1 (Wanxiang 2.1)

알리바바 클라우드의 기술력 집약

알리바바 클라우드는 2025년 2월, 자사의 시각 생성 기반 모델인 '만상 2.1(Wanxiang 2.1 또는 Wan 2.1)' 을 오픈 소스로 전환한다고 발표했습니다. 만상 2.1은 140억 파라미터의 전문가용 모델13억 파라미터의 경량 모델, 두 가지 규모로 제공되며, 모든 추론 코드와 가중치가 공개되었습니다. 이 모델은 특히 물리 법칙을 준수하는 복잡한 운동 표현시네마틱 수준의 영상 품질 구현에 중점을 두고 개발되었습니다.

만상 2.1 데모: 스케이트보드 타는 팬더<span class="footnote-wrapper">[38]</span>

만상 2.1 데모: 스케이트보드 타는 팬더

물리적 현실성 및 운동 표현 능력

만상 2.1은 영상 생성 시 물리 세계의 법칙을 충실히 따르는 능력을 주요 강점으로 내세웁니다. 예를 들어, 중력에 의해 물체가 떨어지거나, 물체 간의 충돌 및 반동, 물질의 절단과 같은 물리적 상호작용을 사실적으로 묘사할 수 있습니다. 또한, 기본적인 걷기, 식사 등의 일상적인 움직임뿐만 아니라, 회전, 점프, 턴, 댄스, 펜싱, 체조와 같은 복잡하고 역동적인 스포츠 동작까지도 높은 정확도로 재현합니다. 이는 모델이 시공간적 일관성을 유지하며 객체의 움직임을 자연스럽게 예측하고 생성할 수 있음을 의미합니다.

만상 2.1 데모: 물리적 상호작용 (물체 충돌 및 반동)<span class="footnote-wrapper">[38]</span>

만상 2.1 데모: 물리적 상호작용 (물체 충돌 및 반동)

만상 2.1 데모: 복잡한 운동 (회전 및 점프)<span class="footnote-wrapper">[38]</span>

만상 2.1 데모: 복잡한 운동 (회전 및 점프)

핵심 기술 및 아키텍처

만상 2.1의 뛰어난 성능은 몇 가지 혁신적인 기술적 접근 방식에 기반합니다.

  • 인과적 3D VAE (Causal 3D VAE): 알리바바는 자체 개발한 효율적인 인과적 3D VAE를 사용하여 임의 길이의 비디오, 심지어 1080p 고해상도 비디오도 효율적으로 인코딩 및 디코딩할 수 있게 했습니다. 3D VAE의 인과적 컨볼루션 모듈에 특징 캐싱 메커니즘을 구현하여, 긴 비디오를 종단 간(end-to-end)으로 직접 처리하는 대신 점진적으로 처리함으로써 무한 길이의 비디오 인코딩/디코딩을 효율적으로 지원합니다. 또한 공간 다운샘플링 압축을 앞당겨 추론 시 메모리 사용량을 성능 저하 없이 29% 추가로 줄였습니다.

  • DiT 및 Flow Matching 기반: 모델 아키텍처는 주류인 DiT(Diffusion Transformer) 구조와 선형 노이즈 궤적의 Flow Matching 패러다임을 기반으로 합니다. Full Attention 메커니즘을 사용하여 장시간 시공간 의존성을 효과적으로 모델링하고 시공간적으로 일관된 비디오 생성을 가능하게 합니다. 입력 텍스트는 다국어 umT5 인코더로 인코딩되며, 교차 어텐션 레이어를 통해 각 Transformer 블록의 특징 공간에 주입되어 세밀한 의미론적 정렬을 구현합니다.

  • 대규모 데이터 처리 및 훈련: 방대한 이미지 및 비디오 데이터 후보 세트를 정리하고 중복을 제거한 후, 기본 차원, 시각적 품질, 운동 품질에 초점을 맞춘 4단계 데이터 정리 프로세스를 설계하여 고품질, 다양성, 대규모의 이미지 및 비디오 훈련 세트를 신속하게 확보했습니다. 훈련 시에는 DP(Data Parallelism), FSDP(Fully Sharded Data Parallel), RingAttention, Ulysses(Context Parallelism의 일종) 등 다양한 병렬 처리 전략을 혼합 사용하여 대규모 모델과 긴 시퀀스 데이터를 효율적으로 처리했습니다.

만상 2.1 데이터 처리 파이프라인<span class="footnote-wrapper">[38]</span>

만상 2.1 데이터 처리 파이프라인

만상 2.1 모델 아키텍처<span class="footnote-wrapper">[38]</span>

만상 2.1 모델 아키텍처

벤치마크 성능 및 접근성

만상 2.1 모델은 여러 벤치마크에서 뛰어난 성능을 입증했습니다. 특히 140억 파라미터 전문가 버전은 권위 있는 비디오 생성 모델 평가 벤치마크인 VBench에서 총점 86.22%를 기록하며 OpenAI의 Sora, Luma AI, Pika 등 국내외 유수 모델들을 제치고 1위를 차지했습니다. 자체 평가에서도 운동 품질, 시각적 품질, 스타일 등 14개 주요 차원, 26개 하위 차원에서 기존 오픈 소스 및 상용 솔루션보다 우수한 성능을 보였습니다.

VBench 벤치마크 결과 비교<span class="footnote-wrapper">[38]</span>

VBench 벤치마크 결과 비교

만상 2.1 자체 평가 결과<span class="footnote-wrapper">[38]</span>

만상 2.1 자체 평가 결과

주목할 점은 13억 파라미터 모델의 경우, 8.2GB의 VRAM만으로도 480p 해상도의 비디오 생성이 가능하여, 거의 모든 소비자용 GPU와 호환된다는 점입니다. 이는 고성능 AI 영상 생성 기술에 대한 접근성을 크게 높여, 더 많은 개발자와 크리에이터들이 이 기술을 활용할 수 있는 길을 열어줍니다. RTX 4090 GPU 기준으로 약 4분 이내에 5초 길이의 480p 비디오를 생성할 수 있습니다(양자화 등 최적화 기술 미적용 시).

GPU별 계산 효율성 비교<span class="footnote-wrapper">[38]</span>

GPU별 계산 효율성 비교

기타 기능 및 오픈 소스 기여

만상 2.1은 텍스트-비디오 생성 외에도 이미지-비디오 생성, 비디오 편집, 텍스트-이미지 생성, 비디오-오디오 생성 등 다양한 작업을 지원하는 다재다능한 모델입니다. 특히, 오픈 소스 모델 중 최초로 중국어와 영어 텍스트를 영상 내에 렌더링하는 기능을 지원하여, 외부 플러그인 없이도 자막이나 로고 등을 영상에 자연스럽게 삽입할 수 있습니다. 알리바바 클라우드는 만상 2.1의 오픈 소스화를 통해 자사가 추구해 온 '모든 모달리티, 모든 크기의 오픈 소스화' 를 완성했다고 밝혔으며, 이는 Qwen 언어 모델 시리즈에 이어 시각 생성 분야에서도 개방형 AI 생태계 구축에 기여하려는 의지를 보여줍니다.

만상 2.1 텍스트 렌더링 기능<span class="footnote-wrapper">[38]</span>

만상 2.1 텍스트 렌더링 기능

주요 모델 분석: Vidu 및 Keling

Vidu: Sora에 대한 중국의 첫 응답

생성수과기(Shengshu Technology)칭화대학교가 공동 개발한 'Vidu' 는 2024년 중관춘 포럼에서 처음 공개되며 OpenAI의 Sora에 필적하는 중국 최초의 영상 대형 모델로 큰 주목을 받았습니다. Vidu는 실제 물리 세계를 시뮬레이션하는 능력과 풍부한 상상력을 바탕으로, 긴 시간 동안의 일관성높은 동적 표현력을 특징으로 합니다. 특히, 다중 샷(multi-shot) 생성시공간적 일관성 유지에 강점을 보입니다.

1년 후, 2025년 중관춘 포럼에서는 더욱 발전된 'Vidu Q1' 모델이 발표되었습니다. Vidu Q1은 단순히 텍스트 입력으로 고품질 영상을 생성하는 것을 넘어, 영상 내 다양한 요소(객체, 인물 등)의 위치, 크기, 운동 궤적을 사용자가 정밀하게 제어할 수 있는 '고가 제어성(high controllability)' 을 핵심 특징으로 내세웁니다. 이는 기존 AI 영상 생성의 무작위성을 극복하고, 제작자의 의도를 정확하게 반영하여 정교한 영상 제작을 가능하게 하는 중요한 진전입니다. Vidu Q1은 현재 5초 길이의 1080p 고화질 영상 생성을 지원하며, 이전 버전에 비해 의미 이해 능력, 화질, 운동 표현, 미학적 품질 등이 향상되었습니다.

![Vidu 모델 소개 이미지 (가상)]

Vidu Q1은 해외의 권위 있는 영상 생성 평가 벤치마크인 VBench-1.0과 VBench-2.0에서 종합 1위를 차지하며, Runway, Sora, Luma AI 등 글로벌 경쟁 모델들을 능가하는 성능을 공식적으로 인정받았습니다. VBench-1.0에서는 비디오 품질비디오-의미 일치성에서, VBench-2.0에서는 상식 추론물리적 이해 등 종합적인 측면에서 최고 수준(State-of-the-Art, SOTA)을 달성했습니다. 이러한 성과는 Vidu Q1이 현재 전 세계적으로 가장 뛰어난 영상 생성 효과를 보이는 모델 중 하나임을 입증합니다. Vidu 모델은 이미 애니메이션, 영화/TV 시리즈 제작 등 산업 현장에 적용되기 시작했으며, 헐리우드의 유명 애니메이션 스튜디오인 Aura Productions는 Vidu와의 협력을 통해 50부작 애니메이션 단편 시리즈 제작을 계획하고 있다고 밝혔습니다.

Keling: 장시간 영상 생성 및 물리 시뮬레이션 강화

중국의 대표적인 숏폼 비디오 플랫폼 기업인 콰이쇼우(Kuaishou) 가 개발한 '클링(Keling)' 대형 모델은 최대 2분 길이의 초장편 비디오 생성 능력으로 주목받고 있습니다. 이는 현재 공개된 모델 중 가장 긴 생성 길이에 해당하며, 스토리텔링이나 복잡한 서사 구조를 가진 영상 제작에 유리합니다. 클링은 큰 폭의 합리적인 운동(large-scale reasonable motion) 을 생성하는 데 강점을 보이며, 물리 세계의 특성을 시뮬레이션하는 능력이 뛰어납니다. 예를 들어, 중력의 영향, 유체의 움직임, 빛의 반사와 굴절 등을 현실감 있게 표현할 수 있습니다.

![Keling 모델 소개 이미지 (가상)]

클링 모델은 강력한 개념 조합 능력과 상상력을 바탕으로 현실에는 존재하지 않는 창의적인 장면이나 복잡한 상호작용을 생성할 수 있습니다. 또한, 최대 1080p 해상도의 비디오 생성을 지원하며, 자유로운 가로세로 비율 설정이 가능하여 다양한 플랫폼과 용도에 맞는 영상 제작을 지원합니다. 클링은 이미지 생성 후 시간적 요소를 추가하는 방식이 아닌, 네이티브 텍스트-비디오 기술 경로(native text-to-video approach) 를 채택하여, 생성 시간이 길고 프레임 속도가 높으며 복잡한 움직임을 정확하게 처리할 수 있는 핵심적인 이유가 됩니다. 사용자가 이미 생성된 비디오에 대해 한 번의 클릭으로 4.5초씩 운동을 합리적으로 연장하는 기능도 제공하며, 각 연장 단계마다 텍스트 제어를 통해 사용자의 창의적인 아이디어를 반영할 수 있습니다.

콰이쇼우는 2025년 4월, 더욱 향상된 성능의 '클링 AI 2.0(Kling AI 2.0)' 모델을 공개하며 지속적인 기술 발전을 보여주고 있습니다. 클링 모델은 공개 이후 사용자들로부터 긍정적인 평가를 받고 있으며, 특히 시간적 일관성 유지, 운동의 부드러움, 물리 법칙 준수 측면에서 우수한 성능을 보인다는 평가가 있습니다. 2024년 12월 기준으로 이미 600만 명 이상의 사용자를 확보하고 누적 생성 비디오 수가 상당한 규모에 이르는 등 빠르게 사용자 기반을 확대하고 있습니다.

Vidu와 클링은 각각 제어 가능성장시간 생성 및 물리 시뮬레이션이라는 차별화된 강점을 바탕으로 중국 AI 영상 생성 기술의 수준을 한 단계 끌어올렸으며, 글로벌 시장에서도 충분한 경쟁력을 갖춘 모델로 평가받고 있습니다.

기술적 과제 및 발전 방향

현재의 기술적 도전 과제

중국을 포함한 전 세계 AI 영상 생성 모델들은 괄목할 만한 발전을 이루었지만, 여전히 해결해야 할 기술적 과제들이 남아 있습니다.

  • 장시간 일관성 유지: 생성되는 영상의 길이가 길어질수록 시간적 일관성(temporal consistency) 을 유지하기 어렵습니다. 객체의 외형이나 배경이 갑자기 변하거나, 움직임이 부자연스러워지는 문제가 발생할 수 있습니다. 무한 길이 생성을 위한 기술이 개발되고 있지만, 오류 누적 방지 및 안정화가 중요합니다.

  • 복잡한 물리적 상호작용: 기본적인 물리 법칙 준수는 개선되었으나, 다수의 객체가 복잡하게 상호작용하거나 유체 역학, 연성체(soft body) 역학 등 고도의 물리 현상을 정확하게 시뮬레이션하는 것은 여전히 어렵습니다. VLIPP와 같이 시각 언어 모델을 활용하여 물리 법칙을 주입하려는 연구가 진행 중입니다.

  • 정교한 제어 및 편집: 사용자가 원하는 대로 영상의 내용을 세밀하게 제어(fine-grained control) 하거나, 생성된 영상을 자유롭게 편집(editing) 하는 기능은 아직 초기 단계입니다. Vidu Q1과 같은 모델이 제어 가능성을 높이고 있지만, 더욱 직관적이고 강력한 제어 인터페이스가 필요합니다.

  • 데이터 편향 및 안전성: 대규모 데이터셋으로 학습하는 과정에서 발생할 수 있는 데이터 편향(data bias) 이나, 생성된 영상이 악의적으로 사용될 가능성(예: 딥페이크) 등 윤리적, 사회적 문제에 대한 고려와 기술적 해결책 마련이 중요합니다. 일부 모델은 정치적으로 민감한 콘텐츠 생성을 차단하는 것으로 보입니다.

  • 계산 비용: 고품질, 고해상도 영상을 생성하기 위해서는 막대한 계산 자원(computing resources) 이 필요합니다. 훈련 및 추론 비용을 절감하고 효율성을 높이는 기술 개발이 지속적으로 요구됩니다. 만상 2.1의 경량 모델처럼 접근성을 높이는 노력도 중요합니다.

향후 기술 발전 방향

이러한 과제들을 해결하기 위해 다음과 같은 방향으로 기술 개발이 진행될 것으로 예상됩니다.

  • 모델 아키텍처 혁신: 트랜스포머(Transformer), 확산 모델(Diffusion Models), 플로우 매칭(Flow Matching), 상태 공간 모델(State Space Models, 예: Mamba) 등 새로운 모델 아키텍처에 대한 연구가 활발히 이루어질 것입니다. GAN(Generative Adversarial Networks) 접근 방식도 특정 분야(예: 인간 모션 생성)에서 활용될 수 있습니다.

  • 멀티모달 통합 강화: 텍스트, 이미지뿐만 아니라 오디오, 3D 데이터, 센서 데이터 등 다양한 모달리티 정보를 통합적으로 활용하여 더욱 풍부하고 현실적인 영상을 생성하는 방향으로 발전할 것입니다. OmniHuman-1과 같이 이미지와 모션 신호(오디오, 비디오)를 결합하는 시도가 이루어지고 있습니다.

  • 물리 기반 모델링 심화: 영상 생성 모델 내에 물리 엔진이나 시뮬레이션 기법을 직접 통합하거나, 물리 법칙을 명시적으로 학습하도록 유도하여 물리적 정확성을 더욱 높이려는 연구가 진행될 것입니다.

  • 사용자 상호작용 및 제어 강화: 사용자가 프롬프트뿐만 아니라 스케치, 레이아웃, 예시 영상 등 다양한 방식으로 영상 생성을 제어하고, 생성 과정에 실시간으로 개입하여 수정할 수 있는 인터랙티브한 시스템 개발이 중요해질 것입니다.

  • 오픈 소스 생태계 활성화: 만상 2.1, Step-Video-T2V, Magi-1 등 고성능 모델들이 오픈 소스로 공개됨에 따라, 이를 기반으로 한 새로운 연구와 응용 서비스 개발이 더욱 활발해질 것으로 기대됩니다. 이는 기술 발전 속도를 높이고 혁신을 촉진하는 중요한 요소입니다.

![Magi-1 모델 소개 이미지 (가상)]

시사점 및 결론

중국 AI 영상 생성 기술의 글로벌 경쟁력

최근 공개된 만상 2.1, Step-Video-T2V, Vidu Q1, 클링 등의 모델들은 중국이 AI 영상 생성 분야에서 세계 최고 수준의 기술력을 확보했음을 명확히 보여줍니다. 이들 모델은 물리적 현실성 구현, 복잡한 운동 표현, 고화질 영상 생성, 사용자 제어 가능성 등 다양한 측면에서 OpenAI의 Sora, Runway의 Gen-3 Alpha, Luma AI의 Dream Machine 등 글로벌 선도 모델들과 대등하거나 특정 영역에서는 앞서는 성능을 나타내고 있습니다. 이는 중국 AI 기업들의 빠른 기술 개발 속도와 혁신 역량을 입증하는 동시에, 글로벌 AI 기술 패권 경쟁이 더욱 치열해질 것을 예고합니다.

오픈 소스 전략과 생태계 구축

특히 주목할 점은 중국 기업들이 적극적으로 고성능 모델을 오픈 소스로 공개하고 있다는 것입니다. 만상 2.1과 Step-Video-T2V가 대표적인 사례이며, 이는 기술의 민주화를 촉진하고 전 세계 개발자들이 참여하는 개방형 혁신 생태계를 구축하려는 전략으로 해석됩니다. 이러한 오픈 소스 움직임은 관련 기술의 발전을 가속화하고, 다양한 산업 분야에서의 응용을 촉진하며, 장기적으로 중국 AI 기술의 영향력을 확대하는 데 기여할 것으로 예상됩니다.

산업적 파급 효과 및 미래 전망

물리적 움직임을 현실적으로 구현하는 AI 영상 생성 기술의 발전은 영화, 애니메이션, 게임, 광고 등 콘텐츠 산업에 혁신적인 변화를 가져올 잠재력이 큽니다. 제작 비용과 시간을 획기적으로 절감하고, 크리에이터의 상상력을 시각적으로 구현하는 데 새로운 가능성을 열어줄 것입니다. 또한, 교육, 의료 시뮬레이션, 로보틱스, 자율주행 시뮬레이션 등 다양한 분야에서도 활용될 수 있습니다. 예를 들어, 체육 교육이나 재활 훈련을 위한 맞춤형 영상 콘텐츠 제작, 위험한 환경에서의 로봇 작동 시뮬레이션 등에 적용될 수 있습니다.

결론적으로, 중국은 AI 영상 생성 분야, 특히 물리적 움직임 구현에서 세계적인 수준의 기술력을 확보하며 글로벌 AI 강국으로서의 입지를 강화하고 있습니다. 오픈 소스 전략을 통한 생태계 구축 노력과 지속적인 기술 혁신을 바탕으로, 향후 이 분야에서 중국의 영향력은 더욱 커질 것으로 전망됩니다. 다만, 기술적 과제 극복과 함께 윤리적, 사회적 책임에 대한 깊은 고민과 노력이 병행되어야 할 것입니다. 앞으로 중국 AI 영상 생성 기술이 어떤 새로운 가능성을 열어갈지 귀추가 주목됩니다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 82
heart