NVIDIA DGX Spark와 Reachy Mini, 집으로 들어온 살아있는 AI 에이전트

집에 들어오니 책상 위에서 작은 로봇이 손을 흔들며 말합니다.
“오늘 일정 정리해 줄까, 아니면 메일부터 읽어 볼까?”

이 장면은 더 이상 SF 영화 속 이야기가 아닙니다. NVIDIA가 CES 2026에서 공개한 DGX Spark와 Reachy Mini, 그리고 새로운 오픈 모델 생태계를 이용하면, 개발자뿐 아니라 기술에 관심 있는 개인도 “물리적인 AI 비서”를 직접 만들 수 있는 시대가 열렸습니다¹².

이 글에서는 DGX Spark와 Reachy Mini가 어떻게 AI 에이전트를 ‘화면 속 텍스트’에서 ‘눈앞의 존재’로 끌어내는지, 그리고 그 중심에 있는 NVIDIA의 오픈 모델과 툴킷이 어떤 역할을 하는지 쉽게 풀어보겠습니다.

DGX Spark와 Reachy Mini가 그리는 ‘살아있는 에이전트’ 그림

DGX Spark를 한 줄로 정의하면 “데이터센터급 AI를 책상 위로 옮겨온 개인용 AI 슈퍼컴퓨터”입니다. 단일 장비에 128GB 통합 메모리를 탑재했고, 두 대를 연결하면 256GB까지 확장되기 때문에, 예전에는 서버 랙이 필요했던 100B(1000억) 파라미터급 모델도 로컬에서 직접 돌릴 수 있습니다³⁴.

여기에 Hugging Face의 소형 휴머노이드 로봇 Reachy Mini를 연결하면 상황이 완전히 달라집니다.
지금까지의 AI 비서는 화면 속 채팅창에 머물렀지만, 이제는 다음과 같은 “물리적 존재”로 바뀝니다.

카메라로 사용자를 실제로 바라보고,
마이크로 음성을 듣고,
스피커로 자연스럽게 말하고,
팔과 몸을 움직이며 제스처로 반응하는 로봇.

NVIDIA는 CES 2026에서 DGX Spark를 Reachy Mini의 “뇌(brain)”로 사용해, 사용자가 말하면 로봇이 주변을 인식하고 생각한 뒤 몸짓과 음성으로 응답하는 데모를 선보였습니다¹⁵.
즉, LLM·VLA·세계 모델이 한데 엮여 “보고–이해하고–행동하는” 에이전트를 완성한 것입니다.

NVIDIA 오픈 모델 3종 세트: 생각·몸·세계까지 한 번에

이 물리 에이전트의 핵심은 단순한 LLM이 아니라, 서로 다른 역할을 가진 오픈 모델들의 조합입니다. NVIDIA는 이번 CES에서 다양한 도메인별 오픈 모델 포트폴리오를 강조했는데, 물리 에이전트에는 특히 세 가지 계열이 핵심적으로 쓰입니다².

1. Nemotron 이유 LLMs – “생각하고 계획하는 두뇌”

Nemotron 3 계열은 에이전트용으로 설계된 오픈 LLM 패밀리입니다. 특히 Nemotron 3 Nano는 하이브리드 Mamba-Transformer MoE 구조와 최대 100만 토큰 컨텍스트를 지원해, 긴 문맥을 유지하면서도 빠르게 추론할 수 있도록 설계됐습니다⁶.

이 모델은 다음 같은 역할을 맡습니다.

사용자의 음성·텍스트 요청을 이해하고,
여러 단계로 이루어진 계획을 세우고,
필요한 도구 호출(캘린더, 메일, 파일 검색 등)을 결정하며,
로봇에게 어떤 행동을 시킬지 “명령서”를 만들어 줍니다.

즉, Nemotron은 “머릿속에서 시나리오를 짜는 기획자”에 가깝습니다.

2. Isaac GR00T N1.6 VLA – “보고 듣고 움직이는 몸”

GR00T는 이름 그대로 “몸을 가진 AI(embodied intelligence)”에 특화된 모델 계열로, VLA(비전·언어·액션) 모델을 통해 카메라 영상, 언어, 행동 제어를 한 번에 다룹니다².

DGX Spark + Reachy Mini 조합에서 GR00T N1.6 VLA는 이런 역할을 합니다.

카메라 영상에 무엇이 있는지 파악하고,
사용자의 지시를 행동으로 번역하고,
로봇의 관절·팔·머리 움직임을 시퀀스로 만들어 냅니다.

예를 들어 “저 책 좀 집어줘”라는 요청이 들어오면, Nemotron이 “책을 찾고 → 로봇이 다가가서 → 손을 뻗어 잡는다”는 고수준 계획을 세우고, GR00T가 실제로 어느 방향으로 몇 도를 돌리고, 팔을 어느 정도까지 뻗을지 세밀한 행동으로 바꿔 Reachy Mini에 전달하는 식입니다.

3. NVIDIA Cosmos 세계 기반 모델 – “상황을 이해하는 가상 세계”

Cosmos는 동영상, 로보틱스 데이터, 시뮬레이션으로 학습한 ‘세계 모델’입니다. 이 모델은 단순히 프레임 단위로 이미지를 보는 게 아니라, “이 장면에서 앞으로 무슨 일이 일어날지”를 예측할 수 있습니다².

한 장의 이미지로 움직임 있는 영상을 생성하고,
여러 카메라 시점의 운전 장면을 합성하고,
물리적 상호작용의 결과(경로, 충돌, 궤적)를 추정하며,
에이전트가 세상과 상호작용하는 시나리오를 시뮬레이션합니다.

이게 왜 중요할까요?
로봇이 실제로 몸을 움직이며 사람과 상호작용하려면, “이렇게 움직이면 위험한지, 부딪히는지, 떨어지는지” 등을 미리 예측해야 합니다. Cosmos는 이런 물리·상황적 추론을 도와주는 ‘시뮬레이션 두뇌’ 역할을 합니다.

Nemotron이 “하는 일”, GR00T가 “할 수 있는 일”, Cosmos가 “해도 되는 일”을 정리해 주는 구조라고 생각하면 이해가 쉽습니다.

NeMo Agent Toolkit: 모델·도구·로봇을 하나로 엮는 배선작업

모델이 아무리 좋아도, LLM·VLA·세계 모델·로봇 하드웨어를 직접 엮는 과정이 복잡하면 현장에서 쓰기 어렵습니다.
이때 등장하는 것이 NVIDIA NeMo Agent Toolkit입니다.

이 툴킷은 한마디로 “에이전트용 통합 프레임워크”입니다. DGX Spark 위에서 돌아가는 여러 구성 요소를 연결하고, 실험과 기능 추가를 쉽게 해 주는 역할을 합니다⁴⁷.

주요 특징을 정리하면 다음과 같습니다.

LLM, VLM, VLA, 도구(검색, DB, 로봇 제어 API 등)를 하나의 에이전트 그래프로 묶고
요청 유형에 따라 어떤 모델을 쓸지 결정하는 라우터를 제공하며
성능 프로파일링과 최적화 기능으로 토큰 처리 속도, 비용, GPU 활용률을 확인할 수 있고
로컬·클라우드·하이브리드 배포를 모두 지원합니다.

특히 라우팅 구조가 흥미롭습니다.
텍스트 질문, 시각 정보가 포함된 요청, 실제 행동이 필요한 명령이 들어오면, 다음처럼 자동으로 최적의 모델을 선택할 수 있습니다.

순수 텍스트 질의 → Nemotron LLM으로 라우팅
카메라 영상이 포함된 지시 → Cosmos 또는 VLM/VLA로 라우팅
로봇 제어가 필요한 행동 요청 → GR00T VLA로 라우팅

덕분에 개발자는 “어떤 모델을 어떻게 붙이지?”보다, “어떤 경험을 만들까?”에 집중할 수 있습니다.

집·사무실에서 만드는 나만의 물리 AI 비서, 실제로 가능할까?

이제 이 조합을 실제 생활에 가져오면 어떤 그림이 그려질까요?
DGX Spark + Reachy Mini + NVIDIA 오픈 모델 + NeMo Agent Toolkit을 쓰면, 다음과 같은 개인용 AI 비서를 직접 만들어 볼 수 있습니다¹⁴.

1. 진짜 “나”를 이해하는 로컬 비서

DGX Spark의 강점은 클라우드가 아니라 “내 책상 위”에서 모델을 돌린다는 점입니다.
이를 활용하면, 남에게 맡기기 꺼려지는 민감한 데이터를 에이전트에게 맡길 수 있습니다.

회사 문서, 회의록, 내부 위키
개인 메일, 일정, 메모, 할 일 목록
집 안 IoT 기기 제어 기록 등

Nemotron + 오픈 RAG 구성으로 이 모든 데이터를 로컬에서 인덱싱하고, 질문–답변–요약을 수행하게 만들 수 있습니다¹⁴.
Reachy Mini는 이를 바탕으로 “오늘 회의 준비됐는지”, “어제 메모해 둔 아이디어를 다시 설명해 달라”고 요청하면, 말과 제스처로 친근하게 설명해주는 인터페이스가 됩니다.

2. 카메라로 주변을 이해하는 진짜 “집사”형 로봇

Reachy Mini에는 카메라가 달려 있고, GR00T와 Cosmos가 연결되어 있기 때문에 “눈 앞의 장면을 보고 판단하는” 역할도 가능합니다.

예를 들어 이런 시나리오를 상상해 볼 수 있습니다.

책상 위를 카메라로 살펴보고 “지금 책상 너무 지저분한데, 먼저 치우는 게 어때?”라고 제안한다.
화분 잎이 축 늘어진 모습을 보고 “물이 부족해 보인다”고 알려 준다.
화이트보드에 적힌 아이디어를 사진으로 찍어 요약해 주고, 관련 자료를 찾아준다.

단순 음성 비서와 달리 “눈으로 보는 상황”까지 이해하기 때문에 훨씬 자연스러운 상호작용이 가능합니다.

3. 개발자가 직접 실험하고 행동을 튜닝하는 로봇 실험실

이 시스템의 중요한 포인트는 “완전히 개방형이며 사용자 맞춤형”으로 설계됐다는 점입니다.
모델, 프롬프트, 도구, 행동 정책까지 사용자가 직접 바꿀 수 있습니다.

특정 제스처를 추가하고 싶으면 GR00T에 새로운 행동 시퀀스를 정의하고,
위험한 동작(빠른 팔 휘두르기 등)은 정책으로 막고,
사용자 별로 말투·응답 스타일을 프롬프트로 튜닝할 수 있습니다.

또한 DGX Spark의 높은 연산 성능과 unified memory 덕분에, Isaac Sim·Isaac Lab 같은 환경에서 로봇을 시뮬레이션하고 강화학습으로 정책을 학습한 뒤, Reachy Mini에 곧바로 내려보내는 식의 개발 사이클도 가능합니다¹⁴.

“이 행동이 자연스러운가?”
“사람이 불편하게 느끼지는 않을까?”
이런 질문들을 실제 사용자 실험으로 검증하고, 데이터를 쌓아 더 나은 에이전트를 만드는 기반이 되는 셈입니다.

로컬 vs 클라우드: 에이전트 배포 전략은 어떻게 가져가야 할까?

아무리 DGX Spark가 강력해도, 모든 상황에서 로컬만 고집하는 것이 항상 최선은 아닙니다. NVIDIA는 이 지점을 고려해 “로컬 + 클라우드 하이브리드” 전략을 지원합니다.

1. 로컬 실행: 프라이버시와 지연 시간

로컬 실행의 장점은 명확합니다.

민감한 데이터(코드, 기업 문서, 개인 메일)가 외부로 나가지 않고,
네트워크 지연 없이 즉각 응답이 가능하며,
인터넷이 불안정한 환경에서도 안정적으로 동작합니다.

DGX Spark는 NVFP4 같은 초고효율 포맷을 사용해 VRAM/메모리 사용량을 줄이면서도, 100B급 모델을 꽉 채워 돌릴 수 있도록 설계되었습니다¹⁴.
특히 로봇과 연동한 물리 에이전트의 경우, 순간적인 네트워크 딜레이가 행동에 그대로 반영될 수 있기 때문에, “생각은 로컬에서” 하는 구성이 훨씬 자연스럽습니다.

2. 클라우드·하이브리드: 확장성과 최신 프런티어 모델

반대로, 아주 최신의 초거대 프런티어 모델이나, 일시적으로 폭발적인 트래픽을 처리해야 하는 상황에서는 클라우드가 유리합니다.

NVIDIA는 Brev 같은 플랫폼을 통해 DGX Spark를 “내 책상 위에 있는 나만의 클라우드 노드”처럼 등록하고, 필요한 작업만 선택적으로 로컬/클라우드로 라우팅할 수 있는 예제를 제공하고 있습니다⁴.

개인정보·사내 데이터 → 로컬 Nemotron·오픈 모델 사용
범용 창의적 요청, 초고급 추론 → 클라우드 프런티어 모델로 라우팅

이런 구조를 설계하면, 비용·성능·프라이버시를 상황에 맞게 조절할 수 있습니다.

앞으로 무엇을 준비하면 좋을까? (개발자·기업·메이커 관점)

마지막으로, 이 흐름에서 우리가 지금 당장 할 수 있는 것들을 정리해 보겠습니다.

첫째, 개발자라면 “에이전트 아키텍처”와 “모델 라우팅” 개념에 익숙해지는 것이 좋습니다.
단일 LLM에 프롬프트만 잘 쓰는 시대에서 벗어나, 여러 모델·도구·액션을 묶는 에이전트 그래프가 기본 단위가 되고 있습니다. NeMo Agent Toolkit, LlamaIndex, LangGraph 같은 에이전트 프레임워크를 한 번씩 만져보는 것을 추천합니다.

둘째, 기업 입장에서는 “데이터를 어떻게 로컬 에이전트에게 안전하게 열어줄 것인가”가 핵심 과제입니다.
DGX Spark처럼 온프레미스에서 강력한 모델을 돌릴 수 있는 인프라가 현실적인 선택지로 등장했기 때문에,

어떤 데이터까지 에이전트가 접근해도 되는지,
감사 로그와 권한 모델을 어떻게 설계할지,
로봇·물리 에이전트를 쓴다면 안전 규칙을 어떻게 설계·검증할지
지금부터 체계적으로 논의할 필요가 있습니다.

셋째, 메이커·로봇 덕후라면 Reachy Mini와 같은 상용 개발용 로봇 플랫폼을 주목할 만합니다.
NVIDIA·Hugging Face가 제공하는 튜토리얼을 따라, 간단한 대화형 데스크탑 컴패니언부터 시도해 볼 수 있습니다⁵⁴. 처음에는 단순한 “말동무 로봇”일지 몰라도, 카메라·센서·액추에이터를 조금씩 확장하며 자신만의 물리 에이전트를 만들어 보는 재미가 상당할 것입니다.

정리하자면, NVIDIA DGX Spark와 Reachy Mini, 그리고 Nemotron·GR00T·Cosmos·NeMo Agent Toolkit이 만들어 낸 이번 CES 2026의 메시지는 분명합니다.

AI는 더 이상 화면 속 텍스트가 아니라,
우리 책상 위에서 눈을 맞추고, 목소리를 듣고, 몸을 움직이는
“살아있는 동료”가 되어가고 있습니다.

이제 남은 질문은 하나입니다.
“당신은 어떤 에이전트를, 어떤 모습으로 당신의 일상에 초대할 것인가?”

참고

¹[NVIDIA 블로그] NVIDIA DGX Spark and DGX Station Power the Latest Open-Source and Frontier Models From the Desktop](https://blogs.nvidia.com/blog/dgx-spark-and-station-open-source-frontier-models/)

²[NVIDIA 블로그] NVIDIA Rubin Platform, Open Models, Autonomous Driving: NVIDIA Presents Blueprint for the Future at CES](https://blogs.nvidia.com/blog/2026-ces-special-presentation/)

³Nvidia Shifts Focus at CES 2026: No New Gaming GPUs, Instead Launches "DGX Spark" Desktop AI Supercomputer](https://biggo.com/news/202601071521_nvidia-dgx-spark-desktop-ai-supercomputer-launch-ces-2026)

⁶Building Voice Agents with NVIDIA Open Models](https://www.daily.co/blog/building-voice-agents-with-nvidia-open-models/)