메인 콘텐츠로 건너뛰기

NVIDIA Alpamayo: 자율주행용 추론 기반 VLA 모델과 오픈 생태계

wislan
wislan
조회수 9

생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.

요약

개요

NVIDIA Alpamayo는 자율주행을 위해 설계된 오픈 비전‑언어‑액션(Vision‑Language‑Action, VLA) 모델 패밀리와 시뮬레이션, 데이터셋으로 구성된 플랫폼이다.13 특히 Alpamayo 1(Alpamayo R1‑10B)은 영상과 언어, 행동을 함께 다루며 단계적 추론 과정을 내놓는 "이유하는(reasoning)" 모델로, 복잡한 주행 상황에서 인간과 비슷한 사고 과정을 흉내 내는 것을 목표로 한다.3

Alpamayo 생태계는 단일 모델이 아니라, 오픈 소스 시뮬레이터 AlpaSim, 대규모 물리 세계 주행 데이터셋(Physical AI AV)까지 포함해 "보는‑생각하는‑행동하는" 전체 루프를 실험·개발할 수 있는 구조로 설계되어 있다.23 이를 통해 기존의 단순한 오픈루프 성능 평가를 넘어, 시뮬레이션 상에서 실제 차량처럼 주행해 보는 클로즈드루프 평가까지 지원하여 레벨 4 수준의 고도 자율주행 개발을 가속하는 것을 목표로 한다.123

NVIDIA Alpamayo: 자율주행용 추론 기반 VLA 모델과 오픈 생태계 image 1

알파심 내에서 작동하는 알파마요 1

Alpamayo 1 개요: 비전‑언어‑액션과 추론 구조

Alpamayo 1(Alpamayo R1‑10B)은 약 100억(10B) 파라미터 규모의 오픈 VLA 모델로, 카메라 영상, 텍스트(언어), 행동/궤적 정보를 한 번에 처리하도록 설계돼 있다.3 연구자들은 이를 "암묵적 세계 모델(implicit world model)"로 보는데, 이는 모델 내부에서 물리·공간적 상황을 의미(semantic) 공간에서 추상화해 다룬다는 뜻이다.3

이 모델의 핵심 특징은 "단계적 추론(step‑by‑step reasoning)"을 통해 주행 결정을 내리고, 그 과정 자체를 텍스트로 남긴다는 점이다.3 예를 들어 공사 구간에서 차로 오른쪽에 콘이 튀어나온 장면을 입력하면, 모델은 차량 궤적(왼쪽으로 살짝 피하는 움직임)을 생성할 뿐만 아니라 "차로로 침범한 콘과의 간격을 늘리기 위해 왼쪽으로 살짝 이동한다"와 같은 설명을 함께 출력한다.3 이는 인간 운전자가 "왜 이렇게 조향했는지" 말로 설명하는 것과 유사한 구조다.

논문·제품 설명에서는 "Chain of Causation(인과 관계의 연결)" 혹은 기존 LLM에서 말하는 chain‑of‑thought에 가까운 아이디어를 차용해, 상황 → 위험 요소 파악 → 대안 행동 평가 → 최종 행동 선택이라는 논리적 단계를 내부적으로 수행하도록 훈련하는 방향을 지향한다. 다만 현재 공개된 자료에서는 이 과정을 구체적인 알고리즘으로 세분해 제시하기보다는, "추론 흔적(reasoning trace)"를 출력하는 VLA 모델이라는 수준으로 설명하고 있다.3

롱테일 문제와 기존 AV 아키텍처의 한계

자율주행 연구에서 "롱테일(long tail)" 문제란, 확률은 낮지만 실제 도로에서는 언젠가 반드시 마주하게 되는 희귀·복잡 상황들을 뜻한다. 예를 들어 갑자기 튀어나오는 보행자, 비정상적으로 주차된 차, 예상치 못한 공사 구간, 특이한 교통문화 등은 각각은 드물지만, 전체를 합치면 "끝없는 꼬리"를 형성한다. 이 영역은 데이터를 충분히 모으기도 어렵고, 규칙 기반 시스템으로 모두 커버하기도 매우 까다롭다.

기존 AV 아키텍처는 보통 감지(perception)-예측(prediction)-계획(planning)-제어(control)로 나뉘는 모듈형 구조를 사용해 왔다. 이 방식은 각 기능을 분리해 설계하고 검증하기엔 좋지만, 희귀·복합 상황에서는 모듈 간 상호작용이 복잡해지고, 전체 시스템의 행동을 이해·디버깅하기가 어렵다. 또한, 엔드투엔드 학습 기반 모델들이 등장하면서, 단순한 지도학습·오픈루프 평가만으로는 실제 도로에서의 안전성을 충분히 보장하기 어렵다는 비판도 커졌다.3

Alpamayo가 롱테일 문제를 다루는 방식

Alpamayo 1은 롱테일 상황을 포함한 다양한 장면에 대해 "이해 가능한 추론 과정"을 제공함으로써, 기존의 블랙박스 엔드투엔드 모델보다 분석과 개선이 쉬운 것을 목표로 한다.3 모델이 "왜" 특정 궤적을 선택했는지 텍스트로 설명하기 때문에, 개발자는 희귀 상황에서의 의사결정 과정이 상식적이고 안전한지 직접 검토할 수 있다.3 이는 단순히 궤적 오류를 보는 것보다 원인 분석에 유리하다.

또한 Alpamayo 생태계에는 25개국, 2,500개 이상의 도시에서 수집한 1,727시간 분량의 다중 센서 데이터가 포함된 Physical AI AV 데이터셋이 포함되어 있어, 다양한 기후·교통·도로 인프라 패턴을 포괄하는 학습·평가가 가능하다.3 롱테일 상황의 진짜 "빈도를 높이는" 것은 어려울 수 있지만, 지리·환경 다양성을 크게 확보함으로써 모델의 일반화 능력을 끌어올리려는 전략으로 볼 수 있다.3

Alpamayo 1 모델이 재구성된 실제 도로 장면을 기반으로 AlpaSim에서 폐루프 주행을 수행하는 예시

이미지 출처: Building Autonomous Vehicles That Reason with NVIDIA Alpamayo

성능 및 평가: 오픈루프·클로즈드루프·실차 테스트

Alpamayo 1은 전통적인 "오픈루프(open‑loop)" 평가뿐 아니라, 시뮬레이터 상에서 실제로 차량을 구동해 보는 "클로즈드루프(closed‑loop)" 평가까지 염두에 두고 설계되었다.3 오픈루프 평가는 기록된 주행 데이터(영상·센서·차량 상태)를 입력하고, 모델이 예측한 궤적을 인간 운전자 혹은 기존 주행 궤적과 비교하는 방식이다.3 이 단계에서 "궤적 오차"나 "충돌 위험도" 같은 지표를 볼 수 있다.

그러나 이유하는 VLA 모델의 경우, 단순히 예측 궤적의 정확도만 보는 것은 충분치 않다. Alpamayo 팀은 AlpaSim이라는 시뮬레이터를 활용해, 모델이 실제 차량 운전자를 대신해 조향·가속·제동을 내리는 폐루프 환경에서 평가하도록 했다.3 이 방식에서는 차량이 도로 위에서 장시간 주행하면서 교차로 통과, 차로 변경, 공사 구간 회피 같은 복합 상황에서 얼마나 안전하고 부드럽게 주행하는지를 볼 수 있다.3

실차의 경우 CES 2026에서 엔비디아는 Alpamayo 기반 자율주행이 NVIDIA DRIVE 스택과 통합되어 실제 차량(예: Mercedes‑Benz CLA)에 탑재될 계획임을 시연 영상과 함께 소개했다.1 이 데모에서는 센서 입력을 받아 조향·가속·제동을 직접 제어하면서도, 동시에 다음에 취할 행동에 대해 이유하는 모습을 보여주며 "San Francisco와 같은 복잡한 도심 환경에서도 안전하게 주행할 수 있다"는 메시지를 전달했다.1

안전성·정렬(alignment)·지연(latency) 측면에서 Alpamayo가 "SOTA(최첨단)"라고 주장되지만, 공개 자료에서는 구체적인 수치나 경쟁 모델과의 정량 비교표보다는, "레벨 4 준비가 된(ready) Hyperion/DRIVE 플랫폼 위에서 작동하는 차세대 추론 기반 모델"이라는 위치를 강조하는 수준에 머무른다.12

레벨 4 자율주행과의 관계: 해석 가능한 추론 + 정밀 제어

엔비디아는 자사의 DRIVE Hyperion를 "레벨 4 준비가 된(Level‑4‑ready) 플랫폼"으로 정의하면서, 센서 구성, 중앙집중형 컴퓨트, 안전 인증 OS(DriveOS)까지 포함한 풀스택 아키텍처 위에 Alpamayo와 같은 엔드투엔드 AI 모델을 얹겠다는 전략을 제시한다.2 이때 Alpamayo의 역할은 단순 궤적 예측기가 아니라, 복잡한 환경에서의 의사결정을 담당하는 "추론 엔진"에 가깝다.13

레벨 4 수준의 자율주행에서는, 차량이 특정 영역(지오펜스) 내에서 대부분의 상황을 스스로 처리하되, 시스템이 규정된 한계 조건을 벗어나면 안전 정지 또는 원격 지원을 요청할 수 있어야 한다. Alpamayo의 추론 흔적은 "이 상황에서 왜 이 결정을 내렸는지"를 사후 분석하고, 문제 있는 패턴을 찾아내 개선하는 데 중요한 역할을 할 수 있다. 이는 안전성 검증과 규제 대응 측면에서 큰 장점이다.

또한 Alpamayo는 단독으로 차량 전체를 제어하기보다는, NVIDIA Halos와 같은 안전 시스템과 결합해 "이중 안전망"을 구성하는 방향이 제시된다.2 Halos는 칩에서 차량 배포까지 전체 수명주기를 포괄하는 안전 프레임워크로, 하드웨어, 소프트웨어, 도구, 모델, 설계 원칙을 묶어 엔드투엔드 AV 스택을 보호하는 역할을 한다.2 Alpamayo가 고수준 의사결정과 사람 같은 추론을 담당한다면, Halos는 시스템적·구조적 안전을 보완한다고 볼 수 있다.

Alpamayo 패밀리 구성: 모델·시뮬레이션·데이터셋

Alpamayo는 단일 모델 이름이 아니라, 다음 세 축으로 구성된 오픈 생태계다.13

  1. Alpamayo 1 (Alpamayo R1‑10B) - 오픈 10B 파라미터 추론 VLA 모델

  2. AlpaSim - 폐루프 AV 평가를 위한 오픈 시뮬레이션 블루프린트

  3. Physical AI AV/Physical AI - AV NuRec Dataset - 대규모, 지리적으로 다양한 AV 데이터셋

AlpaSim은 마이크로서비스 구조를 가진 시뮬레이션 프레임워크로, 중앙 Runtime이 전체 시뮬레이션을 오케스트레이션하고 Driver, Renderer, TrafficSim, Controller, Physics 같은 서비스들이 각자 별도 프로세스에서 동작한다.3 각 서비스는 gRPC 기반의 명확한 API를 가지고 있어 다른 구성요소로 교체하거나 확장하기가 용이하다.3

AlpaSim의 마이크로서비스 아키텍처 개요: Runtime을 중심으로 Driver, Renderer, TrafficSim, Controller, Physics 서비스가 각각 별도 프로세스로 동작

이미지 출처: Building Autonomous Vehicles That Reason with NVIDIA Alpamayo

이 아키텍처는 두 가지 장점을 제공한다.3 첫째, 모듈간 의존성을 최소화하면서 새로운 드라이버나 렌더러를 교체·추가하기 쉽다. 둘째, 병렬 스케일링이 자유로워, 필요에 따라 드라이버 인스턴스를 여러 개 띄우거나 렌더링 전용 GPU를 더 할당하는 식으로 병목을 해소할 수 있다.3

Physical AI AV 데이터셋은 1,727시간, 25개국, 2,500개 이상 도시에서 수집된 310,895개의 20초 클립으로 구성되며, 모든 클립에 멀티 카메라·LiDAR가 포함되고 그 중 163,850개에는 레이더도 포함된다.3 이 데이터는 공사, 다양한 교통 흐름, 보행자 패턴, 기후·날씨 등 다양한 상황을 포괄해, 엔드투엔드 물리 기반(physical AI) 주행 모델을 훈련·평가하는 데 활용된다.3

Physical AI AV Dataset의 국가별 수집 분포를 보여주는 지도. 25개국 2,500개 도시에서 1,727시간의 주행이 수집되었다는 설명

이미지 출처: Building Autonomous Vehicles That Reason with NVIDIA Alpamayo

Alpamayo의 활용 방식: 차량 내 모델이 아니라 '교사(teacher)'로?

공개 자료에서 Alpamayo 1은 "연구자와 개발자가 최신 추론 기반 AV 아키텍처를 평가하고, 궁극적으로는 학습하기 위한 빠르고 확장 가능한 플랫폼"으로 소개된다.3 즉, Alpamayo는 곧바로 차량에 탑재되는 단일 상용 모델이라기보다는, 다양한 AV 스택을 설계·검증하는 기준 모델(baseline)에 가깝다.3

엔지니어링 관점에서 이런 오픈 VLA 모델은 다음과 같은 방식으로 활용될 수 있다.

  • 파인튜닝(fine‑tuning) 기반 특화 모델 개발 Alpamayo 1을 출발점으로, 특정 도시·OEM 차량·센서 구성에 특화된 데이터로 추가 학습을 시켜 브랜드별·도시별 주행 정책을 만들 수 있다.

  • 지식 증류(knowledge distillation) Alpamayo처럼 비교적 큰 모델은 클라우드나 개발 환경에서 "teacher"로 사용하고, 실제 차량에는 더 작은 "student" 모델을 탑재해 동일한 주행 정책을 경량화하는 전략을 취할 수 있다. Alpamayo의 추론 흔적과 궤적을 레이블로 삼아 학생 모델을 훈련하면, 차량 탑재 모델의 크기를 줄이면서도 복잡한 주행 전략을 보존할 수 있다.

  • 시뮬레이션‑기반 데이터 생성 및 평가 AlpaSim과 결합해 Alpamayo의 행동을 대규모로 시뮬레이션해 보고, 안전하지 않거나 비효율적인 정책을 찾아내 반례 데이터(counter‑example)를 수집할 수 있다.3 이런 데이터는 다시 Alpamayo나 별도의 AV 스택을 개선하는 데 사용될 수 있다.

현재 엔비디아의 DRIVE/Hyperion 플랫폼은 차량 내 고성능 컴퓨트와 안전 인증 OS를 제공하며, 다양한 AI 모델을 동시에 실행하고 관리하는 구조로 설계되어 있다.2 Alpamayo는 이 생태계에서 "최신 추론 VLA teacher/베이스라인" 역할을 하며, 실제 상용차에는 각 제조사가 요구하는 성능·지연·전력 제약에 맞춘 변형·경량 모델이 배치되는 그림이 자연스럽다.

산업 및 연구 적용 및 NVIDIA Halos와의 연계

엔비디아는 Alpamayo를 포함한 "물리 AI(Physical AI)" 생태계를 통해, 자동차 제조사, 로보택시 기업, 티어1 공급사, 센서 업체, 스타트업, 학계 파트너들이 모두 같은 기술 기반 위에서 협업할 수 있는 환경을 제공하고자 한다.12 DRIVE AGX와 DRIVE Hyperion은 이미 글로벌 완성차와 로보택시 업체들에게 레벨 4 준비가 된 레퍼런스 플랫폼으로 제공되고 있으며,2 Alpamayo는 그 위에서 구동 가능한 오픈 추론 모델 패밀리로 위치를 잡고 있다.1

NVIDIA Halos는 이 전체 스택을 아우르는 안전 시스템으로, 하드웨어 설계에서부터 소프트웨어, 도구, 모델, 배포에 이르는 1만 5천 엔지니어링 연(Engineering years) 이상의 노하우를 반영했다고 소개된다.2 Halos는 개발 전체 수명주기에서 위험을 줄이는 가드레일 역할을 하며, Alpamayo와 같은 강력한 엔드투엔드 추론 모델이 얹혀도 시스템 전체가 안전 요구사항을 만족하도록 돕는다.2

연구 측면에서 Alpamayo 생태계는 세 가지 이유로 의미가 크다.3 첫째, 오픈 10B급 VLA 모델과 대규모 AV 데이터셋, 오픈 시뮬레이터를 한 번에 제공함으로써, 개별 연구자가 "세계 수준의 폐루프 AV 연구 환경"을 구축하는 비용을 크게 줄였다. 둘째, 추론 흔적을 포함하는 VLA 구조 덕분에, 모델 해석 가능성과 정렬(alignment) 연구가 실제 자율주행 문제와 직접 연결될 수 있다. 셋째, AlpaSim의 마이크로서비스 구조는 향후 새로운 자율주행 정책, 안전 모니터, 협력형 주행(예: 차량‑인프라 협력) 등 다양한 모듈을 삽입해 실험하는 플랫폼으로 확장될 수 있다.3

결과적으로 Alpamayo는 단순히 "또 하나의 자율주행 모델"이 아니라, 이유하는 VLA와 시뮬레이션, 대규모 데이터셋을 통합한 오픈 실험장으로서, 실용적 레벨 4 자율주행을 향한 기술·연구 로드맵에서 중요한 이정표로 평가된다.123

참고

1NVIDIA Rubin Platform, Open Models, Autonomous Driving: NVIDIA Presents Blueprint for the Future at CES

2Accelerating the Future of Autonomous Vehicles

3Building Autonomous Vehicles That Reason with NVIDIA Alpamayo

#자율주행#비전-언어-액션 모델#시뮬레이션#데이터셋#추론 AI

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.