메인 콘텐츠로 건너뛰기

100명이 조 달러 기업을 이겼다: Runway Gen-4.5와 Kling O1이 뒤흔든 AI 비디오 시장

wislan
wislan
조회수 15
요약

AI 비디오 생성 시장에서 역사적인 한 주가 지나갔다. Runway가 Gen-4.5를 공개하며 Google과 OpenAI를 제치고 벤치마크 1위를 차지했고, 중국의 Kling AI는 세계 최초 통합 멀티모달 비디오 모델을 선보였다. 이 두 발표가 왜 중요한지, 그리고 AI 비디오의 미래가 어떻게 바뀌고 있는지 정리해봤다.


Runway Gen-4.5: 다윗이 골리앗을 이기다

Runway의 새 모델 내부 코드네임은 "David"였다. 성경의 다윗과 골리앗 이야기에서 따온 이름이다. 그리고 실제로 다윗이 이겼다.

Artificial Analysis Text to Video 벤치마크에서 Gen-4.5는 Elo 점수 1247을 기록하며 1위를 차지했다. Google Veo 3가 1226점, Kling 2.5가 1225점, OpenAI의 Sora 2 Pro가 1206점으로 그 뒤를 이었다.

이 벤치마크는 블라인드 테스트 방식으로 진행된다. 평가자들은 어떤 회사가 만든 영상인지 모른 채 두 개의 결과물을 비교하고 더 나은 쪽을 선택한다. 즉, 브랜드 파워가 아닌 순수한 품질로 승부한 결과다.

Runway CEO 크리스토발 발렌주엘라는 CNBC 인터뷰에서 "100명의 팀으로 조 달러 기업들을 이겼다"고 말했다. "극도로 집중하고 성실하면 프론티어에 도달할 수 있다"는 그의 말은 현재 AI 업계의 변화를 상징적으로 보여준다.


Gen-4.5의 기술적 특징

Gen-4.5는 처음부터 끝까지 NVIDIA GPU 위에서 개발됐다. NVIDIA와 긴밀히 협력하여 연구 단계부터 사전 훈련, 사후 훈련, 추론 최적화까지 전 과정을 함께 진행했다. 추론은 NVIDIA Hopper와 Blackwell 시리즈 GPU에서 실행된다.

영상 품질 측면에서 Gen-4.5는 확실한 진전을 보여준다. 물체가 현실적인 무게와 운동량으로 움직이고, 액체가 자연스럽게 흐르며, 옷감이나 금속, 머리카락 같은 텍스처가 빠른 움직임 중에도 일관성을 유지한다. 출력은 1080p 해상도, 24fps, 최대 약 18초 길이의 클립을 생성할 수 있다.

주목할 점은 이 모든 품질 향상이 속도 저하 없이 이뤄졌다는 것이다. Gen-4와 동일한 속도와 효율성을 유지하면서 품질만 끌어올렸다.


여전히 남아있는 한계

물론 완벽하지는 않다. Runway도 공식적으로 몇 가지 한계를 인정했다.

첫째, 인과관계 오류다. 예를 들어 문이 손잡이를 누르기 전에 열리는 식으로 원인과 결과의 순서가 뒤바뀌는 경우가 있다.

둘째, 객체 영속성 문제다. 물체가 다른 물체에 가려졌다가 다시 나타날 때 갑자기 사라지거나 예기치 않게 등장하는 현상이 발생한다.

셋째, 성공 편향이다. 잘못 겨냥한 킥이 그래도 골인하는 것처럼, 현실에서는 실패할 행동이 비현실적으로 성공하는 경향이 있다.

Runway는 이러한 문제들이 특히 월드 모델 개발에서 중요하다고 밝혔다. 환경에서 취해진 행동의 결과를 정확히 표현해야 하기 때문이다. 회사는 이 문제들을 해결하기 위해 계속 연구 중이라고 한다.


Kling Video O1: 통합의 시대를 열다

같은 시기에 중국에서도 중요한 발표가 있었다. Kling AI가 Video O1을 공개하며 "세계 최초 통합 멀티모달 비디오 모델"이라고 선언했다.

Video O1의 핵심 컨셉은 단순하다. 비디오 생성과 편집을 하나의 모델에서 처리한다. 기존에는 텍스트-투-비디오, 이미지-투-비디오, 비디오 편집이 각각 다른 도구나 모델을 필요로 했다. Video O1은 이 모든 것을 통합했다.

모델은 3초에서 10초 길이의 비디오를 프롬프트나 참조 이미지로 생성할 수 있고, 기존 영상의 주인공 교체, 날씨 변경, 스타일과 색상 조정 같은 편집도 가능하다. 최대 7개의 이미지, 비디오, 피사체, 텍스트를 동시에 입력받아 처리한다.


후반 작업이 대화가 되다

Video O1이 가져온 가장 큰 변화는 후반 작업의 패러다임 전환이다.

"지나가는 사람 제거해줘", "낮을 황혼으로 바꿔줘", "주인공 옷 바꿔줘" 같은 프롬프트를 입력하면 모델이 시각적 맥락을 이해하고 작업을 수행한다. 수동으로 마스킹하거나 키프레임을 설정할 필요가 없다.

Kling은 이를 MVL(Multimodal Visual Language) 프레임워크라고 부른다. 깊은 의미론적 추론을 통해 사용자가 업로드하는 모든 것, 이미지든 비디오 클립이든 특정 피사체든 텍스트든 실행 가능한 프롬프트로 해석한다.

특히 AI 비디오 생성에서 오랜 골칫거리였던 캐릭터와 장면의 일관성 문제를 해결했다고 주장한다. 모델이 "감독의 기억"처럼 작동해서 카메라가 움직이거나 플롯이 전개되어도 주요 캐릭터, 소품, 배경의 정체성을 유지한다.


벤치마크 성능

Kling AI는 내부 테스트 결과도 공개했다. 이미지 참조 비디오 생성에서 Google Veo 3.1 Fast의 'Ingredients to Video' 기능 대비 247% 승률을 기록했다. 비디오 변환 작업에서는 Runway Aleph 대비 230% 승률을 달성했다.

다만 이 수치들은 Kling AI의 내부 테스트 결과이며, 외부에서 검증되지 않았다는 점은 감안해야 한다.


AI 비디오 시장의 새로운 질서

이번 주의 두 발표가 보여주는 메시지는 명확하다.

모델 품질이 더 이상 회사 크기나 훈련 예산과 엄격하게 비례하지 않는다. 전문화된 연구팀이 여전히 카테고리를 선도하는 시스템을 만들 수 있다.

Runway의 발렌주엘라 CEO는 "AI가 2~3개 회사에 의해 독점되지 않도록 하는 것이 중요하다"고 강조했다. Gen-4.5는 여러 주요 릴리스 중 첫 번째일 뿐이라고 한다.

AI 비디오 생성이 성숙해지면서 콘텐츠 제작의 경제학이 바뀔 수 있다. 더 많은 창작 과정이 전통적인 촬영과 VFX 파이프라인에서 AI 네이티브 도구로 이동할 가능성이 높다.


마무리

2년 전 Runway가 Gen-1을 출시했을 때만 해도 AI 비디오 생성은 실험적인 영역이었다. 이제는 Google, OpenAI, NVIDIA 같은 거대 기업들이 치열하게 경쟁하는 주요 전장이 됐다.

그리고 그 전장에서 100명의 팀이 1위를 차지했다. 중국에서는 생성과 편집의 경계를 허무는 통합 모델이 등장했다.

AI 비디오의 다음 장이 어떻게 펼쳐질지, 앞으로가 더 기대된다.


이런 AI 업계 소식을 매일 받아보고 싶다면 AI 스퀘어 단톡방에 참여해보세요. 1400여명의 멤버들과 함께 전세계 AI 트렌드를 브리핑 받을 수 있습니다.

비번: tilnote https://open.kakao.com/o/gK4NY6fg