엔비디아 ‘베라 루빈 AI 플랫폼’, CES 2026에서 미리 열린 미래
데이터센터 한 랙(rack)이 통째로 하나의 AI 컴퓨터처럼 움직인다면 어떤 일이 벌어질까요?
엔비디아가 CES 2026에서 공개한 ‘베라 루빈(Vera Rubin) AI 컴퓨팅 플랫폼’은 바로 그 질문에 대한 답, 그리고 차세대 AI 인프라의 설계도에 가깝습니다.
이번 글에서는 베라 루빈 플랫폼이 무엇인지, 왜 ‘6개의 칩으로 만든 AI 슈퍼컴퓨터’라고 불리는지, 그리고 이 플랫폼이 기업의 AI 전략과 비용 구조에 어떤 변화를 가져올지까지 한 번에 정리해보겠습니다.
엔비디아 베라 루빈 플랫폼 한눈에 보기
베라 루빈 플랫폼은 간단히 말해 “AI 공장을 위한 차세대 엔진”입니다.
엔비디아는 이제 개별 GPU 서버가 아니라, 데이터센터 랙 전체를 하나의 거대한 AI 컴퓨터로 설계하고 있습니다1.
그 중심에 있는 것이 바로 6개의 칩입니다.
첫째, 루빈 GPU입니다. 이 GPU는 기존 블랙웰(Blackwell) 대비 최대 5배 더 많은 AI 연산을 처리할 수 있도록 설계되었습니다23. 특히 AI 추론(inference)과 대규모 모델 학습에 최적화되어 있습니다.
둘째, 베라(Vera) CPU입니다. 엔비디아가 직접 설계한 ARM 기반 CPU로, 88개의 올림푸스(Olympus) 코어를 탑재하고 AI 워크로드에서 병목이 되기 쉬운 데이터 이동과 에이전트(Agentic) 처리에 특화되었습니다14.
셋째, NVLink 6세대 스위치입니다. 3.6TB/s에 달하는 GPU 간 대역폭으로, 랙 안의 72개 루빈 GPU를 하나의 논리적 슈퍼컴퓨터처럼 묶어 줍니다14.
넷째, ConnectX-9 NIC입니다. 초고속 네트워크 카드로, 랙 밖의 다른 랙 혹은 클라우드와의 통신을 담당합니다1.
다섯째, BlueField-4 DPU입니다. 네트워크, 보안, 가상화 같은 인프라 작업을 CPU 대신 처리해주는 전용 프로세서입니다. 네트워크 패킷 처리부터 스토리지 오프로딩, 보안 정책 적용까지 ‘데이터센터의 뒷정리’를 맡는 칩이라고 보면 됩니다1.
여섯째, Spectrum‑X 기반 102.4T급 CPO 스위치입니다. 이더넷/포토닉스 기반의 대규모 스케일 아웃 네트워크를 위한 스위치로, 여러 랙을 거대한 AI 팩토리로 엮는 백본 역할을 합니다51.
엔비디아는 이 6개 칩을 개별 제품이 아닌 “처음부터 함께 설계된 하나의 시스템”이라고 강조합니다. 이를 ‘익스트림 코디자인(extreme co‑design)’이라고 부르는데, 칩–보드–랙–소프트웨어까지 한 번에 설계해 AI 성능과 비용을 동시에 잡겠다는 전략입니다51.
루빈 플랫폼을 기반으로 한 실제 제품과 서비스는 2026년 하반기부터 엔비디아 파트너사(클라우드, 서버 벤더 등)를 통해 순차적으로 상용화될 예정입니다.
‘AI 공장’ 시대: 왜 랙 스케일 플랫폼이 필요한가
최근 대형 언어 모델(LLM)과 생성형 AI는 단순히 “질문–답변” 수준을 넘어서, 여러 단계를 스스로 계획하고 실행하는 ‘에이전트’ 형태로 진화하고 있습니다. 문제는 이런 에이전트형 AI가 엄청난 양의 토큰과 긴 컨텍스트를 요구한다는 점입니다1.
예전에는 “얼마나 많은 FLOPS(연산 성능)를 갖고 있느냐”가 승부처였다면, 이제는 양상이 바뀌고 있습니다.
첫째, 컨텍스트 관리의 부담이 폭증했습니다.
수십만 토큰짜리 긴 문맥을 한 번에 유지하며 추론해야 하다 보니, GPU의 연산 능력보다 메모리, 스토리지, 네트워크가 병목이 되는 경우가 많아졌습니다. 엔비디아 내부에서도 “병목은 이제 연산이 아니라 컨텍스트 관리로 옮겨갔다”는 표현을 씁니다61.
둘째, AI는 더 이상 ‘훈련 후 가끔 쓰는’ 시스템이 아닙니다.
기업 데이터센터에서는 24시간 돌아가는 AI 파이프라인이 당연해지고 있습니다. 모델을 학습하고, 미세튜닝하고, 추론을 제공하고, 그 결과를 다시 모델 개선에 반영하는 항상 켜져 있는 AI 공장(AI factory) 구조가 표준이 되어가는 중입니다1.
셋째, 전력·보안·신뢰성 같은 현실적인 제약이 훨씬 더 중요해졌습니다.
전 세계 기업들이 AI 인프라에 수십억 달러를 쏟아붓는 상황에서, 동일한 전력과 예산으로 더 많은 ‘토큰’을 생산할 수 있는지, 그리고 이를 얼마나 안정적으로 운영할 수 있는지가 핵심 지표가 되고 있습니다51.
루빈 플랫폼이 지향하는 것은 바로 이 지점입니다.
엔비디아는 블랙웰 세대에서 처음으로 “랙 전체를 하나의 컴퓨터처럼 보는 NVL72 구조”를 도입했습니다. 루빈은 이 개념을 한 단계 더 밀어붙입니다. GPU, CPU, 네트워크, 스토리지, 냉각, 전력까지 랙 스케일에서 통합 설계함으로써 다음과 같은 목표를 노립니다14.
동일한 전력 예산 내에서 더 많은 토큰 처리
더 긴 컨텍스트를 낮은 지연시간으로 처리
데이터가 랙 안을 이동할 때 생기는 병목 제거
장애가 나도 AI 공장이 멈추지 않는 신뢰성 확보
엔비디아는 루빈 플랫폼이 “토큰당 비용을 약 10분의 1 수준으로 낮출 수 있다”고 강조합니다51. 단순한 칩 성능 경쟁이 아니라, AI 공장 전체의 생산 효율 경쟁으로 판이 넘어간 셈입니다.
6개 칩이 만드는 ‘한 대의 AI 슈퍼컴퓨터’
이제 좀 더 구체적으로, 루빈 플랫폼의 6개 칩이 어떻게 하나의 AI 슈퍼컴퓨터를 구성하는지 살펴보겠습니다.
먼저 루빈 GPU입니다.
루빈 GPU는 4비트 부동소수점(NVFP4) 연산에서 50페타플롭스급 추론 성능을 제공하며, HBM4 메모리 288GB와 최대 22TB/s의 메모리 대역폭을 갖습니다14. 블랙웰 대비 메모리는 2.8배 더 빠르고, AI 추론 성능은 최대 5배까지 향상되었다는 것이 엔비디아의 설명입니다24.
이 GPU 2개를 베라 CPU 1개와 패키징한 것이 ‘베라 루빈 슈퍼칩’입니다.
베라 CPU는 88개의 ARM 기반 올림푸스 코어와 1.5TB의 LPDDR5X 메모리를 탑재하고, NVLink-C2C로 GPU와 초고속으로 연결됩니다. 이렇게 구성된 슈퍼칩 하나가 100페타플롭스급 NVFP4 추론 성능을 내며, 랙 안에서는 이런 슈퍼칩이 여러 개 묶여 거대한 단일 컴퓨터처럼 동작합니다14.
NVLink 6 스위치는 이 슈퍼칩들을 초고속 패브릭으로 엮는 역할을 합니다.
각 GPU는 3.6TB/s의 NVLink 대역폭을 제공받고, 랙 전체로 보면 260TB/s에 달하는 대역폭이 확보됩니다. 이 정도면, 서로 다른 GPU에 흩어져 있는 파라미터나 활성값을 거의 ‘로컬 메모리’처럼 느끼게 만들 수 있습니다14.
그 위에 ConnectX‑9 NIC와 Spectrum‑X 스위치가 올라갑니다.
ConnectX‑9는 한 GPU당 최대 1.6Tb/s 수준의 네트워크 대역폭을 제공할 수 있도록 설계되었고, Spectrum‑X 기반 102.4T급 스위치는 여러 랙을 하나의 거대한 클러스터로 묶습니다51. 클라우드 사업자 입장에서는 “하나의 루빈 랙을 사서 꽂는 것”이 아니라, “AI 공장 모듈을 조립하는 것”에 가까운 경험을 하게 되는 셈입니다.
마지막으로 BlueField‑4 DPU는 이 모든 통신과 보안을 관리하는 컨트롤 타워입니다.
네트워크 가상화, 스토리지 오프로딩, 암호화, 방화벽, 멀티테넌시 같은 작업을 CPU 대신 처리해주면서, GPU와 CPU는 온전히 AI 연산에 집중하게 됩니다1. 동시에, 데이터센터 운영자는 DPU를 통해 보안 정책과 트래픽 제어를 하드웨어 레벨에서 구현할 수 있습니다.
이 모든 요소가 모여 구현되는 대표적인 시스템이 바로 ‘베라 루빈 NVL72’입니다.
이 랙에는 루빈 GPU 72개, 베라 CPU 36개 등이 탑재되며, 랙 하나로 3,600페타플롭스급 NVFP4 추론 성능을 제공합니다4. 엔비디아는 이 랙이 “인터넷 전체보다 높은 대역폭”을 제공한다고 표현할 정도로, 통신 능력에 강한 자신감을 보이고 있습니다6.
기업 입장에서 보면 중요한 포인트는 딱 두 가지입니다.
첫째, 예전처럼 GPU 여러 대를 쌓아서 클러스터를 만드는 시대는 끝나가고 있고,
둘째, 이제는 랙 자체가 하나의 AI 제품이라는 것입니다.
MOE와 LLM을 1/4 GPU, 1/7 토큰 비용으로: 성능·비용 게임 체인저
루빈 플랫폼이 특히 주목받는 이유는, 단순히 “빨라졌다” 수준이 아니라 성능과 비용 구조 자체를 바꿀 만큼의 변화를 내세우고 있기 때문입니다.
엔비디아에 따르면 루빈 아키텍처는 기존 세대 대비 1/4의 GPU와 1/7 수준의 토큰 비용으로 대형 MOE(Mixture of Experts) 모델을 학습할 수 있게 설계되었습니다.
또한 AI 추론 단계에서도 블랙웰 대비 최대 5배 높은 성능과, 최대 10배 낮은 토큰당 비용을 달성할 수 있다고 밝히고 있습니다512.
왜 이런 숫자가 나오는 걸까요? 핵심은 세 가지에 있습니다.
첫째, 데이터 타입과 연산 아키텍처의 변화입니다.
루빈은 NVFP4와 같은 저비트 부동소수점 형식을 적극 활용합니다. 4비트면 “정밀도가 괜찮을까?”라는 의문이 들 수 있지만, 실제로는 트랜스포머 엔진에서 정교한 스케일링과 보정 기법을 쓰면서 대부분의 LLM·MOE 워크로드에서 큰 손실 없이 엄청난 속도 향상을 얻을 수 있습니다134.
둘째, 메모리·스토리지 아키텍처의 재설계입니다.
앞서 언급한 것처럼, 루빈은 HBM4와 함께 AI 네이티브 스토리지 플랫폼(예: Inference Context Memory)을 도입해, 긴 컨텍스트를 효율적으로 처리하게 설계되었습니다. 엔비디아는 이를 통해 토큰 처리 속도, 성능/비용, 전력 효율에서 각각 5배 수준의 개선을 주장합니다51.
셋째, 랙 스케일 코디자인에 따른 통신 효율입니다.
MOE 모델은 여러 전문가(Experts)를 동시에 불러다 쓰는 구조이기 때문에, GPU 간 통신이 느려지면 성능이 바로 무너집니다. NVLink 6와 최적화된 네트워크 스택은 MOE 모델이 수백~수천억 파라미터를 넘나들면서도 병목 없이 동작하도록 돕습니다14.
실무 관점에서 이 숫자가 의미하는 바는 매우 큽니다.
같은 예산으로 학습 가능한 모델 규모가 크게 커집니다.
같은 모델을 훨씬 더 자주 재학습·미세튜닝할 수 있습니다.
같은 추론 서비스를 더 낮은 비용으로 제공할 수 있습니다.
특히 클라우드 사업자, 초대형 AI 연구소(OpenAI, Anthropic, xAI 등), 그리고 자사 모델을 직접 운영하려는 대기업 입장에서는 루빈 세대가 “AI 인프라 단가”를 다시 정의할 가능성이 큽니다6.
3세대 기밀 컴퓨팅과 최초의 랙 스케일 TEE: 보안·규제 대응의 무기
성능만큼 중요한 요소가 바로 보안과 규제 대응입니다.
기업과 공공기관은 “AI를 쓸 수 있냐”가 아니라 “우리 데이터로 안전하게 AI를 돌릴 수 있냐”를 묻는 단계로 넘어왔습니다.
루빈 플랫폼은 여기에 대해 두 가지 카드를 꺼냈습니다.
하나는 3세대 기밀 컴퓨팅(Confidential Computing) 지원입니다.
기밀 컴퓨팅은 CPU나 GPU 내부에 ‘신뢰 실행 환경(TEE)’을 만들어, 메모리에 올라간 데이터조차 암호화된 상태로 처리하게 하는 기술입니다. 이렇게 되면 클라우드 관리자조차 실제 데이터를 볼 수 없고, 하드웨어 단에서 보안이 보장됩니다.
다른 하나는 세계 최초의 랙 스케일 신뢰 컴퓨팅 플랫폼이라는 점입니다.
이 말은 곧, 개별 서버 수준에서만 기밀 컴퓨팅을 제공하는 것이 아니라, NVLink로 묶인 랙 전체를 하나의 신뢰 실행 영역으로 취급한다는 의미입니다14. 예를 들어, 민감한 의료 데이터나 금융 데이터를 이용해 대형 모델을 학습할 때, 랙 안에서 이동하는 데이터까지 하드웨어 수준에서 보호할 수 있게 됩니다.
이 기능은 규제가 강한 산업에서 특히 매력적입니다.
금융: 고객 거래 데이터로 만든 리스크 모델, 이상 거래 탐지 모델
의료: 진료 기록·영상 데이터를 활용한 진단 보조 모델
공공·국방: 민감한 정책·정보를 이용한 분석·시뮬레이션 모델
이제는 “모델을 어디서 돌리냐”보다 “어떤 TEE 위에서 돌리냐”가 계약의 조건이 될 가능성이 크고, 루빈은 그 지점을 겨냥한 하드웨어 플랫폼이라고 볼 수 있습니다.
시사점: 루빈 시대, 어떤 준비를 해야 할까
CES 2026에서 루빈이 공개된 가장 현실적인 이유는 숫자입니다.
엔비디아의 데이터센터 매출은 전년 대비 60% 이상 성장하며 폭발적인 상승세를 기록했고6, 이 수요를 더 빨리 흡수하기 위해 원래 연말로 잡혀 있던 루빈 발표를 앞당긴 것으로 보입니다. AI 인프라 레이스가 그만큼 치열하다는 의미이기도 합니다.
정리해보면, 베라 루빈 AI 플랫폼이 의미하는 바는 크게 네 가지입니다.
첫째, AI 인프라의 단위가 ‘서버’에서 ‘랙’으로 바뀌고 있습니다.
앞으로는 GPU 몇 개를 사느냐가 아니라, 몇 랙의 AI 팩토리를 운영하느냐가 경쟁력 지표가 될 수 있습니다.
둘째, AI 모델 경쟁에서 인프라 효율이 훨씬 더 중요한 변수가 됩니다.
같은 모델을 1/4 GPU, 1/7 토큰 비용으로 학습할 수 있다면, 연구 속도와 서비스 가격에서 큰 격차가 벌어질 수밖에 없습니다.
셋째, 보안·규제 이슈는 선택이 아니라 필수입니다.
3세대 기밀 컴퓨팅과 랙 스케일 TEE는 “클라우드에서 기밀 데이터를 안전하게 활용할 수 있는가”라는 질문에 대한 하나의 표준 답안이 될 가능성이 큽니다.
넷째, 엔비디아 의존도 논쟁은 더 뜨거워질 것입니다.
루빈 플랫폼은 클라우드·하드웨어·AI 연구소 생태계 전반을 다시 한 번 엔비디아 중심으로 끌어당길 수 있는 스펙을 갖추고 있습니다. 동시에, 경쟁사(AMD, 자체 AI 칩을 준비하는 하이퍼스케일러들)들에게는 더 공격적인 대응을 강요하는 신호탄이기도 합니다.
그렇다면, 지금 우리가 할 수 있는 준비는 무엇일까요?
AI를 전략적으로 활용하려는 기업이라면,
“GPU 몇 장 사올까?”보다 “어떤 랙 스케일 인프라와 보안 모델 위에서 운영할까?”를 먼저 고민해야 합니다.기술 리더와 아키텍트라면,
MOE, 장문 컨텍스트, 에이전트형 워크로드처럼 루빈 세대 인프라를 충분히 활용할 수 있는 모델 설계에 관심을 가져야 합니다.스타트업과 개발자라면,
곧 주요 클라우드에서 루빈 기반 인스턴스가 등장할 가능성이 높으니, 비용·성능·보안 측면에서 어떤 워크로드를 루빈 세대로 옮길지 미리 시뮬레이션 해보는 것이 좋습니다.
AI 인프라는 지금, 눈에 보이지 않는 곳에서 세대 교체 중입니다.
베라 루빈 플랫폼은 그 교체의 방향을 꽤 분명하게 보여주는 신호탄에 가깝습니다. “어떤 모델을 쓸까?”에 못지않게 “어떤 플랫폼 위에서 돌릴까?”가 중요한 시대, 지금부터 인프라 관점의 AI 전략을 다시 짜볼 때입니다.
참고
5Rubin (microarchitecture) - Wikipedia
6Nvidia unpacks Vera Rubin rack system at CES | The Register