
루마 AI의 런던 상륙, 영상 모델 회사가 왜 로봇과 컴퓨트까지 말할까

런던 행을 택한 루마 AI, 단순한 유럽 지사 이야기가 아니다
해외 AI 기업의 확장은 한국 독자에게 먼 이야기처럼 느껴지지만, 인재와 자본이 어디로 몰리는지에 따라 국내 기회도 조용히 방향이 바뀝니다. 루마 AI가 두 번째 거점을 런던으로 정했다는 사실은 그래서 그냥 지나치기 아까운 신호입니다.
루마는 이미 유럽 출신 연구자와 엔지니어, 그리고 딥마인드 출신 인력을 강하게 끌어들이고 있습니다. 런던을 선택한 표면적 이유는 두 가지입니다. 유럽과 중동 인재 풀에 가까운 연구 거점이라는 점, 그리고 유럽과 중동 비즈니스의 관문이라는 점입니다. 겉으로는 익숙한 글로벌 기업의 교과서 같은 설명이지만, 실제로는 딥마인드와 구글 리서치에 쌓인 인재를 정면으로 겨냥했다는 의미에 가깝습니다. 제 기준에서는 이 지점이 국내 AI 인력에게도 더 직접적인 영향을 줍니다.
150명짜리 AGI 연구소가 던지는 메시지
루마는 스스로를 멀티모달 AGI 연구소라고 규정합니다. 그런데 규모는 약 150명 수준입니다. 숫자만 보면 대기업 연구소의 한 팀보다 작습니다. 그 대신 한 사람당 투입되는 자원과 연구 자유도는 업계 최고 수준이라고 주장합니다. 여러 프로젝트를 동시에 돌리는 대신 멀티모달 AGI라는 한 목표에 모든 자원을 몰아주겠다는 선택입니다.
이 방식은 안정성과 명확한 커리어 패스를 원하는 엔지니어보다, 자신의 이름이 논문과 제품에 선명하게 남기를 원하는 타입에게 훨씬 매력적입니다. 반대로 말하면, 사내 순환보직과 장기적인 복지 체계를 중시하는 사람에게는 그다지 매력적이지 않을 수 있습니다. 한국에서도 이미 대기업 연구소와 소규모 연구 중심 스타트업 사이에서 비슷한 선택지가 생기고 있으며, 루마식 모델은 후자의 극단에 가깝다고 볼 수 있습니다.
런던, 유럽, 중동이 한 축으로 묶이는 이유
루마가 런던을 중동의 관문으로도 언급했다는 점은 눈여겨볼 부분입니다. 최근 몇 년 사이에 중동 국부펀드와 정부가 AI 인프라와 컴퓨트에 대규모 투자를 하고 있으며, 루마도 사우디로부터 컴퓨트 약속을 받은 상태입니다. 런던은 여전히 금융과 규제 대응의 허브이고, 중동은 자본과 전력, 데이터 센터 부지의 허브로 떠오르는 중입니다.
국내에서만 커리어를 설계하는 개발자에게는 체감이 약할 수 있습니다. 하지만 글로벌 AI 기업이 "미국 서부 + 런던 + 중동"이라는 삼각 구조를 기본 패턴으로 잡는다면, 한국의 역할은 자연스럽게 하청 개발이나 특정 도메인 특화로 밀릴 가능성이 있습니다. 이 구조에서 한국이 어디에 설 것인지, 지금 미리 가설을 세우는 것이 필요합니다.
루마가 말하는 '비디오가 곧 AGI의 길'이라는 주장
이미지 생성 모델은 익숙해졌지만, 여전히 많은 사람은 "영상 생성이 더 화려한 엔터테인먼트 기술" 정도로만 생각합니다. 루마는 이 지점을 완전히 다르게 봅니다. 비디오는 곧 물리 세계를 이해하는 창이며, AGI와 로봇으로 가는 가장 현실적인 경로라는 주장입니다.
언어와 비디오, 두 개의 다른 뇌
텍스트는 추상화와 논리, 규칙을 다루는 데 강합니다. 반면 비디오는 물체, 움직임, 물리 법칙을 압축한 데이터입니다. 루마의 관점은 단순합니다. 언어 모델이 추론을 담당한다면, 비디오 모델은 세상에 대한 시뮬레이터가 됩니다. 이 둘을 오디오까지 포함해 하나의 옴니모달 모델로 묶으면, "머릿속에서 세상을 돌려보는" 인공 두뇌가 만들어진다는 구상입니다.
한국의 많은 AI 프로젝트는 여전히 챗봇과 텍스트 기반 업무 자동화에 집중합니다. 이 흐름만 보면 비디오 모델의 가치를 체감하기 어렵습니다. 그러나 제조, 물류, 건설, 엔지니어링처럼 물리 세계와 직접 맞닿은 산업에서는 비디오 기반 세계 모델이 훨씬 더 중요한 의미를 가집니다. 텍스트만 잘하는 모델로는 공장 라인을 설계하거나 현장을 안전하게 통제하기 어렵기 때문입니다.
영상 생성에서 범용 로봇까지 이어지는 단일 선
루마는 현재의 비디오 생성 모델을 엔터테인먼트과 광고에서 바로 수익화할 수 있는 전초기지로 사용합니다. 동시에 같은 기술을 범용 로봇 개발의 토대로 삼겠다고 선언합니다. 로봇이 인간 수준의 유연성을 가지려면, 실제로 행동하기 전에 머릿속에서 수많은 시나리오를 시뮬레이션해야 합니다. 그러려면 세상의 물리와 상호작용을 충분히 학습한 세계 모델이 필요합니다.
여기서 많이들 놓치는 부분이 있습니다. 로봇 하드웨어 회사가 중요한 것이 아니라, 그 위에서 작동하는 세계 모델을 누가 장악하느냐가 진짜 승부처라는 점입니다. 제 기준에서는 한국 하드웨어 기업이 장기적인 생존을 고민한다면, 자체 로봇을 더 잘 만드는 것보다, 어떤 세계 모델과 어떻게 결합할지를 먼저 전략으로 세우는 편이 현실적입니다.
돈과 컴퓨트, 그리고 '200명 엘리트 팀' 전략의 함정
거대 AI 모델 경쟁이 본격화된 이후, 가장 자주 들리는 단어가 컴퓨트입니다. 루마도 예외가 아닙니다. 이미 9억 달러를 조달했고, 사우디와 협력해 2기가와트급 컴퓨트 클러스터를 짓겠다고 선언했습니다. 숫자만 보면 에너지 기업이 원전을 짓는 것과 비슷한 규모입니다.
2기가와트 컴퓨트, 누가 이걸 쓸 수 있을까
2기가와트는 일반적인 데이터 센터 한두 개로 설명이 되지 않는 수준입니다. 루마는 휴메인과 함께 이 물리적 자원을 확보해, 비디오와 세계 모델, 멀티모달 모델을 장기간에 걸쳐 대규모로 학습하겠다는 계획을 내놓았습니다. 멀티모달 AGI는 현재의 텍스트 중심 모델보다 훨씬 많은 연산량이 필요하다는 전제를 깔고 있습니다.
겉으로 보면 "돈 많이 모았구나" 정도의 인상일 수 있습니다. 그러나 이 정도 스케일의 컴퓨트 확보는 다른 의미도 가집니다. 소수의 글로벌 플레이어만이 이런 인프라를 소유하게 되고, 나머지 기업과 국가는 자연스럽게 이들의 API와 플랫폼에 의존하게 된다는 점입니다. 국내 스타트업이나 중견 기업이 독자적인 거대 모델을 키우겠다는 꿈은 점점 비현실적인 방향으로 밀려나고 있습니다. 대신, 상위 몇 개 세계 모델 위에서 특정 산업과 지역에 최적화된 계층을 설계하는 역량이 더 중요해질 수 있습니다.
'200~300명의 천재' 전략, 모든 이에게 좋은 회사는 아니다
루마는 수천 명이 아닌 200~300명의 최고 연구자와 엔지니어만 있으면 충분하다고 말합니다. 이 말은 동시에 대다수 인력에게는 그다지 자리가 없다는 뜻이기도 합니다. 극단적인 고성과 압박을 감수하면서도, 이름과 영향력을 얻고 싶은 사람에게는 이상적인 환경이 될 수 있습니다.
반대로 안정적인 조직문화와 장기적인 성장 경로를 선호하는 사람에게는 위험한 선택이 됩니다. 한국 개발자와 연구자가 루마 같은 회사에 끌린다면, 화려한 비전과 보상만 볼 것이 아니라, 이 구조에서 버틸 수 있는지 냉정하게 따져봐야 합니다. 많은 사람이 이 지점에서 기대만 크게 품고, 실제 업무 강도와 성향의 미스매치로 소진되는 경우가 적지 않습니다.
한국에서 이 흐름을 어떻게 받아들일 것인가
해외 AGI 스타트업의 컴퓨트와 로봇 이야기가 당장 내 일과 무슨 상관인지 의문이 드는 것은 자연스러운 반응입니다. 그럼에도 루마가 보여주는 방향성은 국내 실무자에게도 몇 가지 선택지를 던집니다.
이 전략이 유리한 사람과 그렇지 않은 사람
멀티모달, 비디오, 로보틱스, 세계 모델이라는 키워드에 흥미를 느끼는 개발자와 연구자라면, 지금부터라도 텍스트 중심 NLP 밖으로 시야를 넓힐 필요가 있습니다. 특히 제조, 물류, 건설, 의료 영상, 디지털 트윈 등에 몸담고 있다면, 비디오 기반 모델이 어떻게 이 도메인과 연결될지 공부하는 것이 커리어 측면에서 큰 차이를 만들 수 있습니다.
반대로 단기적인 취업과 이직이 더 중요한 단계라면, 루마식 AGI 비전은 당장 직접적인 도움이 되지 않을 수 있습니다. 여전히 국내 시장에서는 업무 자동화와 검색 보조, 코드 어시스트 같은 텍스트 기반 서비스 수요가 큽니다. 이 경우에는 현업에서 바로 쓰이는 툴과 스택을 먼저 익히고, 멀티모달과 로봇 쪽은 장기적인 방향성 정도로 가볍게 팔로업하는 편이 현실적입니다.
지금 할 수 있는 첫 행동, 그리고 냉정한 거리 두기
현실적으로 대부분의 국내 실무자는 2기가와트 컴퓨트에도, 런던 오피스에도 직접 연결되기 어렵습니다. 그래서 첫 행동은 작게 잡는 편이 좋습니다. 세계 모델과 비디오 기반 학습에 대한 최신 논문과 오픈소스 프로젝트를 하나 정리해보거나, 현재 맡은 프로젝트에서 텍스트 외 입력 모달을 하나라도 실험해보는 정도가 충분한 출발점입니다. 예를 들어 고객센터 로그만 쓰던 팀이라면, 화면 녹화나 CCTV, IoT 센서 데이터를 같이 분석할 수 있을지 상상해 보는 수준도 의미가 있습니다.
동시에 과장된 AGI 담론과 거리 두기도 필요합니다. 루마가 아무리 멀티모달 AGI를 외쳐도, 실제 비즈니스는 여전히 광고 영상 제작과 콘텐츠 자동화에서 먼저 돈을 벌어야 유지됩니다. 국내에서 이 흐름을 따라가고 싶다면, 거대한 비전보다 "지금 내 현장에서 비디오와 멀티모달이 어떤 작은 문제를 풀 수 있는지"를 우선 질문하는 편이 좋습니다. 이 균형을 유지하지 못하면, 비전은 거창한데 손에 잡히는 것은 아무것도 없는 상태로 몇 년을 흘려보내기 쉽습니다.
출처 및 참고 :
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
