NVIDIA 젠슨 황 CES 2026 키노트: AI, 물리 AI, 로봇, 슈퍼컴퓨터 정리

핵심 요약

지금은 'AI + 물리 AI'라는 두 개의 거대한 플랫폼 전환이 동시에 일어나는 시점이며, 소프트웨어 개발 방식부터 하드웨어 구조까지 컴퓨팅 전 영역이 재설계되고 있다.

엔비디아는 오픈 모델, 에이전트형 AI, 물리 AI, 자율주행, 로봇, 그리고 신규 슈퍼컴퓨터(베라 루빈)를 통해 이 전환을 위한 완전한 인프라와 레퍼런스 시스템을 제공하고 있다.

이 정리는 "지금 무엇이 왜 바뀌고 있는지, 그리고 그 위에서 어떤 것들을 만들 수 있는지"를 이해하는 데 초점을 둔다.

AI 시대의 플랫폼 전환

10~15년마다 컴퓨터 산업에는 '플랫폼 전환'이 있었다. 메인프레임에서 PC, PC에서 인터넷, 인터넷에서 클라우드, 클라우드에서 모바일로 이어진 변화다.

이번 세대의 전환은 두 가지가 동시에 일어난다는 점에서 이전과 다르다. 첫째, 애플리케이션이 이제 "AI 위에서" 만들어진다. 둘째, 소프트웨어를 만드는 방식 자체가 "코딩에서 학습(훈련)"으로 바뀐다.

이제는 CPU에 코드를 적재해 정해진 기능을 실행하는 대신, GPU 위에서 모델을 학습시키고, 그 모델이 매 순간 상황에 맞는 출력을 새로 생성한다. 매 요청마다 텍스트 한 줄, 픽셀 하나까지 매번 새로 만드는 "생성형 컴퓨팅"이 기본 모드가 된다.

이 변화로 과거에 구축된 수십 조 달러 규모의 IT 자산과, 전 세계 산업의 R&D 예산 일부가 전부 AI 방식으로 재편되고 있다. VC 투자와 기업 예산이 왜 AI 쪽으로 쏠리는지의 근본적인 이유가 여기에 있다.

AI 발전 단계: 언어 모델에서 '생각하는' 모델까지

언어 모델 발전을 큰 줄기로 보면 네 단계가 나온다.

첫째, BERT 같은 초기 언어 모델이 "문장을 이해하는 기계"를 가능하게 했다. 둘째, 트랜스포머(Transformers) 구조 등장으로 매우 큰 규모의 언어 모델이 가능해졌고, 2022년 ChatGPT로 세상이 이 잠재력을 체감했다.

셋째, '추론(reasoning) 모델'의 등장이다. 01 계열과 같은 모델은 단순히 문장을 예측하는 것을 넘어서, 테스트 시간에 여러 경로를 탐색하고 스스로 '생각'하는(Test-time scaling) 전략을 쓰기 시작했다. 사전학습 + 강화학습(예: RLHF) + 테스트 시 사고 과정 확장이라는 3단 구조가 생긴 것이다.

넷째, 2024~2025년에 본격 등장한 '에이전트형(Agentic) 시스템'이다. 이들은 외부 도구를 호출해서 검색하고, 계획을 세우고, 여러 단계를 나누어 실행하며, 한 번도 본 적 없는 작업을 조합적으로 해결한다. 프로그래밍 보조 도구인 Cursor처럼, 실제 업무 방식을 송두리째 바꾸는 사례들이 빠르게 늘고 있다.

오픈 모델과 AI 생태계의 폭발

AI가 모든 산업에 퍼지려면 소수 빅테크의 폐쇄형 모델만으로는 부족하다. 국가, 연구자, 스타트업, 기업들이 각자의 요구와 규범에 맞는 모델을 만들 수 있어야 한다.

2024년 이후 오픈 모델의 품질이 급격히 상승했다. DeepSeek R1 같은 오픈 소스 추론 모델은 "이제 오픈 모델도 최전선(frontier)에 근접했다"는 신호탄이 됐다. 최고 성능 상용 모델 대비 반년 정도 뒤처져 있지만, 6개월마다 새로운 버전이 나오는 속도를 보면 격차는 계속 좁혀지고 있다.

오픈 모델이 강력해질수록 다운로드 수와 활용 사례는 폭발적으로 증가하고 있다. 각국 정부, 학교, 연구실, 스타트업, 대기업이 자신의 데이터와 규제 환경에 맞는 특화 AI를 만들 수 있기 때문이다.

엔비디아는 자체 슈퍼컴퓨터(DGX Cloud)를 돌려, 단백질(La Proina, OpenFold 3, Evo 2), 기상 및 물리 시뮬레이션(Earth-2, ForecastNet, CorrDiff), 범용 언어 모델(NeMoTron 3), 세계 모델(Cosmos), 로봇 모델(Groot), 자율주행(AlpaMo) 등 다양한 도메인의 '오픈 프론티어 모델'을 직접 만들어 공개하고 있다. 이와 함께 NeMo, Physics NeMo, Clara 등 모델 라이프사이클 전체(데이터 처리, 학습, 평가, 가드레일, 배포)를 지원하는 라이브러리도 오픈해 생태계 기반을 제공한다.

에이전트형 AI 애플리케이션의 구조

LLM이 처음 나왔을 때 가장 큰 문제는 "지어내기(환각)"였다. 이유는 단순하다. 모델은 과거까지의 데이터는 잘 암기했지만, 최신 정보나 개인 데이터, 실시간 세계 상태를 알 수 없기 때문이다.

이를 해결하는 방식이 '에이전트' 구조다. 에이전트는 질문을 받으면 먼저 "이건 그냥 내 내부 지식으로 답할 수 있을까, 아니면 검색/툴/다른 모델이 필요할까?"를 결정한다. 그 후 문제를 작은 단계로 쪼개고, 각 단계에 맞는 도구(검색, API 호출, 데이터베이스, 다른 특화 모델)를 호출해 순차적으로 해결한다.

여기에 더해 중요한 개념이 "멀티모달·멀티모델·멀티클라우드·하이브리드"다. 하나의 에이전트가 텍스트, 음성, 이미지, 비디오, 3D 정보 등을 모두 다루고(멀티모달), 여러 종류의 모델을 필요에 따라 선택해 쓰고(멀티모델), 이 모델들이 서로 다른 클라우드/온프레미스/엣지에 흩어져 있는 환경을 자연스럽게 넘나든다(멀티·하이브리드 클라우드).

엔비디아는 이 구조를 "블루프린트"라 부르며, Palantir, ServiceNow, Snowflake, CrowdStrike, NetApp 같은 엔터프라이즈 플랫폼에 이 에이전트 구조를 기본 인터페이스로 통합하고 있다. 사용자는 더 이상 스프레드시트나 폼이 아니라, 사람과 대화하듯 플랫폼 전체를 다루게 된다.

개인 어시스턴트 예시: 실제로 어떤 식으로 조립되는가

키노트에서는 DGX Spark(개인용 GPU 서버)를 활용해 개인 비서 에이전트를 만드는 예시가 등장한다. 이 예시는 에이전트 구조를 직관적으로 보여준다.

기본으로는 클라우드 기반 프론티어 모델 API를 사용하지만, 이메일처럼 프라이버시가 중요한 작업은 로컬에서 도는 오픈 모델이 담당하도록 '의도 기반 라우터'를 둔다. 프롬프트를 보면, 라우터가 "이건 이메일 관련이니까 로컬 모델로, 이건 일반 지식이니까 프론티어 모델로" 자동 분기하는 방식이다.

여기에 Hugging Face의 작은 로봇(Reachi), 11 Labs의 음성 합성, To-do 관리, 아키텍처 스케치로부터 3D 렌더링·영상 생성 등 다양한 도구가 연결된다. 에이전트는 이들을 "툴콜"로 제어하며, 마치 집 안의 집사이자 로봇 조정사가 된 것처럼 행동한다.

젠슨 황이 강조하는 포인트는 이것이다. 몇 년 전만 해도 대기업 연구소가 수년간 투자해야 가능한 시스템이, 이제는 오픈 모델과 도구 몇 개를 조합해 개인이 '취미 프로젝트' 수준으로 만들 수 있을 정도로 쉬워졌다는 점이다.

물리 AI와 세계 모델: Cosmos

언어 모델이 "텍스트 세계의 규칙"을 학습한다면, 물리 AI는 "현실 세계의 물리 법칙과 상식"을 학습한다.

로봇이나 자율주행처럼 현실에 직접 작용하는 AI에는 다음 능력이 필요하다. 눈을 돌렸다가 다시 봐도 물체가 그대로 있다는 '객체 영속성', 밀면 넘어지고, 무거운 트럭은 잘 안 멈추고, 공은 굴러간다는 '인과·역학 상식' 등이다. 인간에게는 너무 당연한 것들이지만, 데이터에서 학습하지 않으면 AI는 전혀 모른다.

문제는 현실 데이터만으로는 너무 느리고, 다양성이 부족하다는 점이다. 그래서 "컴퓨팅을 데이터로 바꾸는" 접근이 필요하다. 먼저 기본적인 물리 시뮬레이터(예: 교통 시뮬레이터)의 결과를 입력으로 넣고, Cosmos 같은 세계 모델이 그 위에 물리적으로 그럴듯한 주변 영상과 상황을 생성한다. 이렇게 하면 실제로 일어나기 어려운 '엣지 케이스'나 위험한 상황까지 마음껏 만들어낼 수 있다.

Cosmos는 인터넷 규모 영상, 실제 주행·로봇 데이터, 3D 시뮬레이션 등으로 사전학습된 세계 모델이다. 한 장의 이미지에서 다음 프레임을 예측하거나, 3D 장면 설명으로부터 영상을 생성하고, 특정 시나리오(비 오는 밤, 공사 구간, 보행자 돌발 상황 등)를 텍스트로 지시해 다양한 상황을 만들어낼 수 있다.

중요한 점은, Cosmos가 닫힌 루프(행동 → 세계의 반응)를 구성할 수 있다는 것이다. 이렇게 하면 로봇이나 자율주행 모델이 실제 도로에 나가기 전에, 시뮬레이션 속에서 수십억~수조 km를 경험하며 학습하고 평가받을 수 있다.

자율주행 AI AlpaMo: '생각하는 차'

엔비디아는 8년간 자율주행 전체 스택을 직접 만들면서, "완전한 로봇 시스템을 어떻게 설계해야 하는지"를 몸으로 익혔다. 그 결실 중 하나가 AlpaMo(알파마요)라는 자율주행 AI다.

AlpaMo의 특징은 크게 세 가지다. 첫째, 카메라 입력부터 조향·가감속 출력까지를 하나의 거대한 모델로 '엔드 투 엔드' 학습했다. 실제 주행 데이터(사람이 운전한 것 + AI가 운전한 것)뿐 아니라, Cosmos로 생성한 수많은 가상 상황까지 모두 학습에 사용한다.

둘째, 단순히 조향각과 속도를 내는 것이 아니라, "지금 어떤 상황인지, 무엇을 하려고 하는지, 왜 그런 결정을 내렸는지, 앞으로 어느 경로로 갈 것인지"를 함께 출력하도록 설계되어 있다. 즉, 모델이 운전 행동과 그에 대한 설명·계획을 동시에 생성한다. 이는 긴 꼬리(long tail) 상황에서 특히 중요하다. 새로운 상황이라도, 그것을 여러 개의 평범한 요소(차량, 보행자, 신호, 장애물 등)로 분해해 각각에 대한 상식을 조합해 대응할 수 있기 때문이다.

셋째, 안전 구조이다. AlpaMo는 강력하지만, 완벽하게 검증되었다고 가정할 수는 없다. 그래서 엔비디아는 전통적인 규칙 기반+모듈식 자율주행 스택을 별도로 유지하고, 두 스택을 동시에 돌린다. 상단에 '정책·안전 평가기'가 있어, 자신감이 높은 상황은 AlpaMo에게 맡기고, 그렇지 않으면 보수적인 클래식 스택으로 자동 전환한다. 하드웨어도 센서와 컴퓨팅, 소프트웨어까지 중복·다양성을 갖춘 구조다.

이 전체 스택은 메르세데스와의 협업으로 상용차(예: CLA)에 탑재되고, 2025년부터 미국·유럽·아시아로 순차 출시된다. 그리고 핵심 모델과 데이터, 스택 설계 방식은 다른 자동차 회사와 로보택시 업체가 참고·활용할 수 있도록 개방된다.

로봇 시대를 위한 인프라: 오므니버스, Isaac, 물리 AI

자율주행은 사실 "거대한 바퀴 달린 로봇"의 한 형태다. 같은 원리가 공장 로봇, 물류 로봇, 서비스 로봇, 휴머노이드 로봇 등 다양한 형태에 그대로 확장된다.

로봇 AI를 만들려면 세 가지 컴퓨터가 필요하다. 첫째, 모델을 학습하는 학습용 컴퓨터(데이터센터 GPU). 둘째, 로봇 안에서 모델을 실행하는 추론용 컴퓨터(엣지/온보드 컴퓨팅). 셋째, 로봇이 세상과 상호작용하는 과정을 가상으로 재현하고, 무수한 시나리오를 시험해볼 수 있는 시뮬레이션 컴퓨터다.

엔비디아는 세 번째 영역에 Omniverse(물리 기반 디지털 트윈 플랫폼)와 Isaac Sim/Lab(로봇 시뮬레이션 및 학습 환경)을 제공하고, Groot 같은 로봇 전용 AI 모델을 함께 제공한다. 실제 CES 무대에도 다양한 파트너사의 로봇(물류, 산업용, 서비스, 휴머노이드, 건설, 의료 등)이 등장했는데, 이들 상당수가 엔비디아 Jetson/Orin/Thor 칩과 Isaac 기반 시뮬레이션을 사용해 개발된다.

결국, 로봇은 "디지털 공간에서 설계되고 학습된 뒤, 현실로 '컴파일'되어 나오는 물리적 에이전트"가 된다. 실제 생산라인, 건설 현장, 병원, 가정에 들어가기 전에 이미 가상 세계에서 수없이 태어나고 죽어보며 최적화되는 셈이다.

산업계로 확장되는 물리 AI: 시멘스, EDA, CAE, 공장

엔비디아를 가능하게 만든 산업은 반도체 설계(EDA)와 제품 설계/시뮬레이션(CAE) 같은 고성능 엔지니어링 도구 산업이다. 젠슨 황은 이제 그 산업이 다시 AI로 재창조되고 있다고 강조한다.

Cadence, Synopsys 같은 EDA 회사는 GPU 가속과 AI 모델을 설계·검증·배치에 활용하고, 시스템 수준 설계와 시뮬레이션까지 확장하고 있다. 가까운 미래에는 칩/시스템 설계를 도와주는 '에이전트형 설계 도우미'가 등장해, 인간 엔지니어와 함께 회로와 레이아웃, 전력, 열, 타이밍을 조율할 것이다.

시멘스는 보다 넓은 범위의 산업(제조 공장, 설비, 인프라)을 다룬다. 시멘스의 디지털 트윈·산업용 소프트웨어에 CUDA-X, Omniverse, 물리 AI, 에이전트형 AI가 깊이 통합되면, 공장을 "처음부터 디지털로 설계하고, 시뮬레이션에서 검증하고, 이후 실제 공장을 지어 그대로 복제하는" 방식이 가능해진다.

이렇게 되면 공장 자체가 하나의 거대한 로봇처럼 동작할 수 있다. 생산라인의 로봇 팔, AGV(자율주행 운반차), 검사 시스템, 에너지 관리 등이 모두 디지털 트윈 속의 세계 모델에 연결되어, 설계–생산–운영–최적화가 하나의 순환 루프를 이루게 된다.

베라 루빈 AI 슈퍼컴퓨터: 폭증하는 연산 요구에 대한 해답

AI 모델 크기, 학습량, 추론량은 이제 매년 몇 배씩 커지고 있다. 모델 파라미터는 10배씩, 추론 시 생성 토큰 수는 5배씩 늘어나고, 강화학습과 테스트 시간 사고(test-time scaling) 때문에 학습과 추론 모두 연산량이 폭증하고 있다.

문제는 반도체 공정의 진화(무어의 법칙)가 예전처럼 2년마다 2배씩 성능을 주지 못한다는 점이다. 트랜지스터 수 증가율이 떨어진 상황에서, 단순히 칩만 미세화해서는 AI의 요구를 따라갈 수 없다.

엔비디아의 해법이 '극단적 공동 설계(extreme co-design)'이다. CPU, GPU, NIC, DPU, 스위치, 냉각, 랙 구조, 소프트웨어 스택을 한 세대에 통으로 다시 설계해, 시스템 단위로 성능을 올리는 방식이다. 베라 루빈(Vera Rubin) 슈퍼컴퓨터는 그 집약체다.

핵심 구성요소는 다음과 같다. Vera CPU(이전 세대 대비 2배 성능, 88코어/176스레드, 초고대역 IO), Reuben GPU(블랙웰 대비 약 5배 AI 성능, 단 트랜지스터 증가는 1.6배 수준), ConnectX-9 NIC(각 GPU당 1.6Tbps 스케일아웃 대역), BlueField-4 DPU(스토리지/보안/가상화/네트워크 오프로딩), NVLink 6 스위치(세계에서 가장 빠른 400Gbps SerDes로 72 GPU를 단일 거대한 GPU처럼 묶음), Spectrum-X 광 이더넷 스위치(대규모 랙 간 연결) 등이다.

중요한 기술 중 하나가 MV-FP4 텐서코어다. 단순히 4비트 부동소수점 숫자를 쓰는 것이 아니라, 레이어·작업 종류에 따라 내부적으로 정밀도를 동적으로 조절하는 '지능형 연산 엔진'이다. 정밀도가 중요하지 않은 부분은 4비트로 밀어붙여 속도를 높이고, 민감한 부분은 8비트·16비트 등으로 올려 정밀도를 유지한다. 이를 하드웨어 내부에서 자동으로 수행해, 실용적인 정확도를 유지한 채 비약적인 처리량을 얻는다.

베라 루빈 랙은 케이블과 호스를 거의 제거한 모듈식 구조로 설계되어, 조립·유지보수 시간이 크게 줄고, 100% 액체 냉각으로 전력 효율과 밀도가 극대화된다. 이런 시스템 수천 개가 모이면, "AI 공장(AI factory)"라는 표현이 과장이 아닐 정도의 연산 공장이 된다.

인사이트

이 키노트에서 공통으로 흐르는 메시지는 "AI는 더 이상 한두 개의 서비스 기능이 아니라, 산업 전체의 운영 체계가 된다"는 것이다. 언어 모델, 물리 AI, 에이전트, 로봇, 자율주행, 디지털 트윈, 슈퍼컴퓨터가 하나의 연속선 위에 놓여 있다.

지금 당신이 준비할 수 있는 실질적인 행동은 크게 세 가지다. 첫째, 에이전트 구조를 이해하고, "우리 조직의 데이터/업무 프로세스에 맞는 에이전트를 어떻게 만들 수 있을까?"를 구체적으로 상상해보는 것이다. 둘째, 오픈 모델과 오픈 툴 체인(예: Hugging Face, NeMo, Isaac, Omniverse 유사 툴)을 활용해 작은 실험을 시작해보는 것이다.

셋째, 물리 세계와 연결된 비즈니스(제조, 물류, 건설, 에너지, 의료, 모빌리티 등)에 있다면, "우리 도메인의 디지털 트윈 + 물리 AI"가 어떻게 경쟁 구도를 바꿀지 미리 그려보는 것이다. AI를 단순한 챗봇이 아니라, 설계·생산·운영 전체를 관통하는 '두 번째 운영체계'로 보는 관점 전환이 앞으로 10년을 가를 가능성이 크다.

출처 및 참고 :