Lightricks LTX-2, 오픈소스로 Sora·Veo에 선전포고하다
텍스트 한 줄 던졌을 뿐인데, 입 모양까지 딱 맞는 음성과 음악, 효과음이 들어간 4K 영상이 20초짜리로 뚝딱 나온다면 어떨까요?
구글 Veo, 오픈AI Sora 같은 폐쇄형 거대 모델만의 세계라고 느껴졌던 이 판에, 이스라엘의 Lightricks가 완전 공개 오픈소스 모델 LTX-2를 던지며 정면으로 도전장을 내밀었습니다12.
이 글에서는:
LTX-2가 정확히 어떤 모델인지
Sora·Veo와 비교해 어떤 점이 다른지
창작자, 개발자 입장에서 무엇이 달라지는지
를 차근차근 풀어봅니다.
LTX-2 한 줄 요약: “텍스트 → 20초짜리 4K 영상+완전 동기화 오디오”
LTX-2를 한 문장으로 설명하면 이렇습니다.
“텍스트 한 줄로, 최대 20초짜리 4K 영상과 완전히 동기화된 오디오를 한 번에 만들어주는 190억 파라미터 오픈소스 모델”
조금만 더 풀어보면 특징은 다음과 같습니다.
LTX-2는 단일 텍스트 프롬프트로 최대 20초 길이의 비디오를 생성합니다. 이때 비디오는 단순한 무음 영상이 아니라, 다음 요소가 모두 동시에 생성됩니다12.
등장인물의 립싱크가 맞는 음성
환경에 맞는 배경 소리(바람, 도시 소음 등)
동작에 맞춘 폴리 효과음(발소리, 문 여는 소리 등)
장면 분위기를 살리는 배경 음악
해상도는 최대 4K, 프레임레이트는 초당 최대 50fps까지 지원합니다13. 영화 트레일러나 광고 시안 정도는 충분히 커버할 스펙이죠.
게다가 이 모든 걸 오픈소스로, 코드와 가중치, 심지어 학습·추론 프레임워크까지 통째로 공개했습니다13. GitHub와 Hugging Face에서 누구나 내려받아 쓸 수 있고, 엔터프라이즈 GPU뿐 아니라 RTX 5090 같은 소비자용 GPU에서도 돌아가도록 최적화되어 있습니다1.
비대칭 듀얼 스트림 아키텍처: 왜 “비디오 140억, 오디오 50억”인가
LTX-2의 핵심은 비대칭 듀얼 스트림 트랜스포머라는 구조입니다. 총 파라미터는 약 190억 개인데, 이 중 비디오 스트림에 140억, 오디오 스트림에 50억이 할당됩니다12.
왜 이렇게 비율이 다를까요?
연구진 설명은 간단합니다.
“영상 정보량이 소리보다 훨씬 많다.”
영상은 2D 공간에 시간 축까지 합쳐 3D 정보(가로·세로·시간)를 다루고, 오디오는 기본적으로 시간 축(1D)에 집중합니다. 그래서 LTX-2는 처음부터 두 모달리티를 ‘동등’하게 보지 않고, 비디오 쪽에 더 많은 계산 자원을 몰아주는 비대칭 구조를 선택했습니다12.
구조를 조금만 해부해 볼까요.
첫째, 각각 따로 인코딩하는 VAE
비디오와 오디오는 각각 별도의 변분 오토인코더(VAE)로 인코딩됩니다2.
비디오는 3D RoPE(3차원 회전 위치 임베딩)으로 공간+시간 구조를 인식하고,
오디오는 1D 위치 임베딩으로 시간 축에 집중합니다12.
영상과 소리를 억지로 한 공간에 욱여넣지 않고, 각자 특성에 맞게 최적화된 잠복 공간(latent space)을 쓰는 셈입니다. 이 분리 덕분에 나중에 “기존 비디오에만 오디오를 입히기” 같은 편집형 워크플로우도 깔끔하게 지원할 수 있습니다2.
둘째, 양방향 교차 주의(Cross-Attention)
두 스트림은 서로 완전히 따로 노는 것이 아니라, 중간중간 양방향 교차 주의 레이어로 강하게 연결됩니다12.
화면에서 공이 땅에 떨어지는 순간
그 시점에 “쿵” 소리가 나야 한다는 것
입 모양이 “아”일 때, 오디오도 “아”를 발음해야 한다는 것
이런 것들을 이 교차 주의가 맞춰줍니다. 논문에서 공개한 어텐션 맵을 보면, 특정 시각 이벤트와 특정 오디오 토큰이 정밀하게 매칭되는 걸 볼 수 있습니다14.
셋째, 텍스트 이해는 Gemma3-12B + “생각할 시간(Thinking Tokens)”
LTX-2는 텍스트 이해를 위해 다국어 언어 모델 Gemma3-12B를 인코더로 사용합니다12.
여기서 흥미로운 포인트 두 가지:
보통 마지막 레이어만 쓰는 대신, 모든 디코더 레이어의 정보를 모아서 더 풍부한 의미 표현을 만듭니다14.
여기에 “Thinking Tokens(생각 토큰)”이라는 가상의 토큰을 입력 시퀀스에 추가해, 실제 생성에 들어가기 전 모델이 프롬프트를 더 깊이 “곱씹을” 시간을 줍니다154.
이 덕분에 단순히 “고양이가 뛰어다닌다” 수준이 아니라,
“황혼의 도시 옥상 위를 파란 재킷을 입은 여성이 걷고 있고, 카메라는 천천히 팬하며 재즈 음악이 흐른다” 같은 복잡한 프롬프트도 비교적 안정적으로 처리합니다5.
속도와 길이: H100에서 18배 빠르고, Sora보다 더 길게
LTX-2가 실전에서 주목받는 이유 중 하나는 속도입니다.
공개된 벤치마크에 따르면, NVIDIA H100 GPU에서 720p 기준 121프레임을 생성하는 데 스텝당 1.22초가 걸립니다1. 비슷한 규모의 알리바바 Wan2.2-14B는 같은 조건에서 22.30초가 필요합니다1.
단순 계산으로 약 18배 빠른 셈입니다. 더 놀라운 점은, Wan은 비디오만 만들고 오디오는 따로 없는데, LTX-2는 비디오+오디오를 한 번에 만든다는 점입니다1.
길이도 중요합니다. 최대 생성 길이는 20초로, 현재 공개된 주요 모델과 비교하면 다음과 같습니다1.
Google Veo 3: 최대 12초
OpenAI Sora 2: 최대 16초
Character.AI Ovi(오픈소스): 최대 10초
LTX-2: 최대 20초
즉, 오픈소스 모델 중에서는 길이·속도 두 측면에서 모두 선두 그룹이라고 볼 수 있습니다. 사람 평가 기반 비교에서도, LTX-2는 다른 오픈소스 모델(Ovi 등)보다 확실히 선호되고, Veo 3·Sora 2 같은 폐쇄형 모델과도 상당히 비슷한 수준까지 올라왔다는 결과가 제시됩니다62.
여기에 NVIDIA와의 협업을 통해 NVFP8, NVFP4 같은 저정밀 포맷으로 양자화한 버전도 제공되는데, 이 버전은 모델 크기를 약 30% 줄이고 속도를 최대 2배까지 끌어올린다고 보고됩니다3. 덕분에 RTX 시리즈 GPU에서도 꽤 실용적인 속도로 고품질 비디오를 뽑을 수 있습니다.
LTX-2를 오픈소스로 풀어버린 이유: “내 창의력의 주인은 나여야 한다”
이쯤 되면 가장 궁금한 질문이 나옵니다.
“이 정도 퀄리티면 API로 팔아도 돈 잘 벌 텐데, 왜 굳이 오픈소스로 풀었을까?”
Lightricks 창업자 Zeev Farbman은 발표 영상에서 이렇게 말합니다.
“지금 수준의 컨트롤을 폐쇄형 API로는 달성하기 어렵다”
“AI는 인간의 창의력을 확장시키지만, 그 확장을 다른 누군가가 소유하는 건 문제”63.
요약하면 두 가지 메시지가 읽힙니다.
첫째, 창작자는 자기 하드웨어에서, 자기 조건으로 AI를 돌릴 권리가 있다
클라우드 API 기반 모델은 편리하지만, 다음과 같은 제약이 있습니다.
비용 구조: 초·프레임 단위 과금
데이터 프라이버시: 어떤 데이터가 어떻게 학습에 쓰일지 불투명
제어 권한: 모델 업데이트·정책 변화가 일방적으로 이루어짐
Lightricks는 이 구조에 문제의식을 갖고, “창작 도구는 사용자 손 안에 있어야 한다”는 쪽으로 방향을 튼 셈입니다13.
둘째, 윤리적 결정은 소수 빅테크가 아니라 커뮤니티가 함께 내려야 한다
딥페이크, 허위영상, 저작권 침해 가능성 등 AI 비디오의 윤리적 이슈는 점점 커지고 있습니다. Farbman은 “윤리적 선택을 극소수 기업에 외주 주는 대신, 넓은 커뮤니티와 함께 고민해야 한다”고 강조합니다13.
그래서 LTX-2 공개에는 단순히 가중치뿐 아니라:
전체 학습·추론 코드
다중 GPU를 지원하는 모듈형 트레이닝 프레임워크
여러 개의 LoRA 어댑터 세트
소비자용·엔터프라이즈용 GPU를 아우르는 최적화 코드
까지 포함되어 있습니다13. 단, 라이선스에는 윤리적 사용을 강조하는 조항과, 편향·부적절 콘텐츠 생성 가능성에 대한 경고도 함께 담겨 있습니다3.
한계와 리스크: 언어 편차, 멀티 스피커 오류, 그리고 20초의 벽
여기까지 읽으면 “완벽한데?” 싶지만, LTX-2도 분명한 한계를 가지고 있습니다.
첫째, 언어별 품질 격차
LTX-2는 Gemma3 기반 다국어 인코더를 사용하지만, 실제 성능은 언어에 따라 편차가 있습니다.
연구진도 “표본이 적은 언어나 특정 방언에서는 발음·억양이 덜 자연스럽다”고 인정합니다62.
한국어 역시 영어 대비 미묘한 어색함이 남을 가능성이 큽니다. 특히 광고나 내레이션처럼 발음이 민감한 영역에서는 후편집이 필요할 수 있습니다.
둘째, 여러 인물이 있는 장면에서의 음성 할당 오류
여러 등장인물이 동시에 말하거나 번갈아 말하는 장면에서는, 대사가 잘못된 캐릭터 입으로 들어가는 현상이 종종 관찰된다고 합니다6.
예를 들어, A가 입을 열고 있는데 B 목소리가 나오는 식이죠. 이는 교차 주의가 완벽하지 않거나, 데이터셋에서 이런 복잡한 대화 장면이 상대적으로 적었기 때문일 수 있습니다.
셋째, 20초 이상에서 발생하는 “시간의 붕괴”
논문에 따르면 20초를 넘어가는 시퀀스는 아직 안정적이지 않습니다.
길게 뽑으려 할수록 프레임 간 일관성이 깨지고, 오디오-비디오 동기화가 서서히 틀어지는 “temporal drift”가 발생합니다62.
현재 구조상 20초를 하나의 완결된 유닛으로 보고 설계했기 때문에, 장편 콘텐츠는 여전히 씬 단위로 잘라 생성 후 편집에서 연결하는 방식이 필요합니다.
넷째, 딥페이크·악용 가능성
오픈소스 모델의 숙명입니다. 누구나 고품질의 현실감 넘치는 영상과 음성을 만들 수 있다는 건, 곧 누구나 강력한 딥페이크 도구를 갖게 됐다는 뜻이기도 합니다.
Lightricks는 논문에서 사회적 영향과 윤리 위험을 따로 장으로 다루며, 워터마킹·콘텐츠 검출 도구와의 연동, 사용 정책 수립의 필요성을 강조합니다2. 하지만 오픈소스인 이상, 기술 자체를 통제하기는 사실상 불가능합니다.
결국 남는 건 각 조직·개인의 자율 규제와 법·제도의 정비입니다.
시사점: 크리에이터와 개발자가 LTX-2로 할 수 있는 것들
이제 가장 실용적인 질문으로 넘어가 보겠습니다.
“그래서, 지금 내가 이걸로 뭘 할 수 있나?”
첫째, 영상 제작 워크플로우의 완전한 프로토타이핑
기획 단계에서 콘티 대신 텍스트만으로 씬 전체를 미리 렌더링해 볼 수 있습니다.
같은 프롬프트를 약간씩 바꿔 다양한 버전을 테스트한 뒤, 마음에 드는 버전을 선정해 실제 촬영의 레퍼런스로 삼을 수 있습니다.
인디 게임, 유튜브, 광고 시안 등에서 특히 유용할 수 있습니다.
둘째, 브랜드 전용 LoRA로 “나만의 영상 스타일” 만들기
LTX-2는 여러 LoRA 어댑터를 제공하고, 사용자가 직접 LoRA를 학습해 스타일·캐릭터·카메라 무브 등을 커스터마이즈할 수 있습니다53.
특정 브랜드 색감, 그래픽 스타일, 촬영 구도 등을 학습시켜
“우리 브랜드 느낌 나는 영상”을 지속적으로 뽑아내는 전용 모델을 만들 수 있습니다.
LoRA는 수십 MB 수준으로 가볍기 때문에, 하나의 LTX-2 본체에 여러 스타일 LoRA를 덧입혀 상황에 따라 조합하는 것도 가능합니다5.
셋째, 자체 서비스·앱에 LTX-2를 내장한 “온디바이스 생성”
소비자용 GPU에서도 돌아갈 정도로 최적화되어 있고, 추론 파이프라인이 오픈되어 있기 때문에:
영상 편집 앱
게임 엔진 플러그인
교육용 콘텐츠 제작툴
등에 LTX-2를 직접 내장해, 클라우드 비용 없이 사용자 로컬에서 영상 생성 기능을 제공할 수 있습니다53.
특히 스타트업 입장에서는 Sora·Veo API를 붙이면 초당 비용이 무서워지지만, LTX-2는 초기 인프라만 잘 꾸려 두면 이후 비용 예측이 훨씬 단순해집니다.
넷째, 연구·실험용 베이스 모델
아카데믹·연구 관점에서 LTX-2는:
오디오·비디오 동시 생성용 베이스라인
텍스트→오디오·비디오의 결합 방식을 연구하는 실험 플랫폼
새로운 컨트롤 모듈(자막 타이밍, 음악 장르 제어, 카메라 경로 제어 등)을 붙여보는 테스트베드
로 활용될 수 있습니다. 폐쇄형 모델은 “결과”는 보여주지만, 내부가 블랙박스라 연구에 쓰기 어렵죠. LTX-2의 가치는 “연구 가능한 수준의 고품질 멀티모달 모델”이라는 점에 있습니다2.
마무리: Sora·Veo vs LTX-2, 승부의 포인트는 “열려 있느냐”에 있다
현재 절대적인 품질만 놓고 보면, 여전히 Sora나 Veo가 조금 더 매끄러운 영상·물리 시뮬레이션·언어 일관성에서 우위를 보일 가능성이 큽니다. 다만 이들은 모두 폐쇄형 API입니다.
반면 LTX-2는:
190억 파라미터 규모의 오디오+비디오 통합 모델
최대 20초, 최대 4K, 최대 50fps
H100 기준 경쟁 모델 대비 최대 18배 빠른 추론 속도
소비자 GPU에서도 구동 가능
코드·가중치·트레이닝 레시피까지 전부 공개된 오픈소스
라는 조합으로, “품질은 충분히 실용적이고, 제약은 극히 적은” 새로운 선택지를 제시합니다163.
Sora·Veo가 “극한의 퀄리티를 보여주는 쇼케이스”라면,
LTX-2는 “현실적인 비용과 자유도로 구현 가능한 오픈소스 작업용 모델”에 가깝습니다.
앞으로 1~2년 동안, 커뮤니티가 LTX-2 위에 쌓을 수많은 LoRA, 플러그인, 워크플로우들이 이 모델의 진짜 가치를 결정할 것입니다.
지금 할 수 있는 가장 좋은 일은,
직접 깔아보고 프롬프트를 던져보는 것뿐입니다.
참고
1Lightricks open-sources AI video model LTX-2, challenges Sora and Veo
2LTX-2: Efficient Joint Audio-Visual Foundation Model – arXiv Abstract
5LTX-2: Efficient Joint Audio-Visual Foundation Model – arXiv HTML
6Lightricks macht KI-Videomodell LTX-2 offen und fordert Sora und Veo heraus
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
