개인 AI 비서 만들기: DGX Spark, Brev, 에이전트, 로봇까지 한 번에 이해하기

핵심 요약

개인 AI 비서는 여러 모델과 도구를 조합해 캘린더, 이메일, 할 일 관리, 집 안 모니터링까지 돕는 시스템이다. Brev와 DGX Spark, 모델 라우팅, 도구 호출, 로봇·음성 API를 연결해 "나만의 비서 + 집 안 로봇"을 하나의 경험으로 엮는 것이 핵심이다. 프라이버시가 중요한 작업은 로컬 모델로, 복잡한 작업은 클라우드 모델로 나누는 설계가 중요한 포인트다.

개인 AI 비서의 목표: 내 삶 전반을 돕는 하나의 인터페이스

이 사례에서 만들고자 하는 것은 단순한 챗봇이 아니라, 일정, 이메일, 할 일, 집 안 상태까지 관리해주는 "통합 개인 비서"다.

사용자는 캘린더 확인, 이메일 작성·정리, 장보기 같은 개인 할 일, 집 안 상황 확인(예: 반려동물이 소파 위에 있는지 확인)까지 하나의 비서에게 자연어로 요청한다.

핵심은 "무엇을 하든 같은 인터페이스로 요청할 수 있다"는 점이다. 사용자는 어느 모델을 쓰는지, 어느 서버에서 돌아가는지 신경 쓰지 않고 "말만 하면 되는" 경험을 목표로 한다.

DGX Spark와 Brev: 나만의 개인 클라우드 기반

사용자는 DGX Spark라는 로컬 GPU 장비를 가지고 있고, 이를 Brev를 통해 개인 클라우드처럼 사용한다.

Brev는 DGX Spark 같은 로컬 자원과 클라우드 GPU를 같은 방식으로 접근할 수 있게 도와주는 플랫폼으로, 개발자는 "어디서 돌리는지"를 거의 신경 쓰지 않고 에이전트를 구성할 수 있다.

이 덕분에 무거운 모델을 DGX Spark에 띄우든, 클라우드 Frontier 모델 API를 호출하든, 개발 경험은 비슷하게 유지되며, 필요에 따라 자원만 바꿔 쓸 수 있다.

여러 모델을 섞어 쓰기: Frontier 모델 + 로컬 오픈 모델

사용자는 Frontier 모델 API를 사용해 "시작하기 쉬운" 강력한 언어 모델을 가져온다.

하지만 이메일처럼 민감한 정보가 오가는 작업은 클라우드로 내보내고 싶지 않기 때문에, DGX Spark 위에 오픈 소스 언어 모델을 로컬로 띄워 이메일 관련 작업을 맡긴다.

이렇게 하면 "일반적인 대화, 복잡한 추론 → Frontier 클라우드 모델"과 "프라이버시가 중요한 이메일 처리 → 로컬 오픈 모델"이라는 역할 분담이 가능해진다.

중요한 메시지는 "모델은 하나만 쓰는 게 아니라, 작업 종류에 따라 섞어서 쓸 수 있다"는 점이다.

인텐트 기반 모델 라우팅: 작업에 따라 자동으로 모델 선택

사용자가 매번 "이건 로컬 모델, 저건 클라우드 모델"을 선택하는 건 번거롭다.

이를 해결하기 위해 인텐트 기반 모델 라우터를 사용한다. 에이전트가 입력 프롬프트를 보고 "이건 이메일 관련이네"라고 판단하면 해당 요청은 자동으로 DGX Spark 위의 로컬 모델로 보낸다.

반대로 이메일과 무관한 일반 대화, 할 일 정리, 창의적 작업 등은 Frontier 모델로 라우팅한다.

이렇게 라우팅을 설계하면, 사용자는 마치 하나의 똑똑한 비서와 이야기하는 것처럼 느끼지만, 내부적으로는 여러 모델이 협업하는 구조가 된다.

도구 호출로 기능 확장: 이메일, 할 일, 이미지·영상 작업까지

에이전트는 단순히 텍스트만 생성하는 것이 아니라, "도구 호출(tool call)"을 통해 실제 세상과 상호작용한다.

이메일을 보내기 위해서는 이메일 서비스와 연동된 도구를 만들고, 에이전트가 "이 도구를 호출해 Jensen에게 메일 보내기" 같은 행동을 하게 된다.

할 일 목록을 확인하거나 수정하는 도구를 연결하면, "오늘 할 일 알려줘", "Jensen에게 스크립트 보낸다는 할 일을 추가해줘" 같은 요청도 자동으로 처리된다.

이미지나 영상 작업도 마찬가지로, 스케치를 건축 렌더링으로 바꾸거나, 방을 둘러보는 영상을 생성하게 하는 도구를 연결해 에이전트가 이를 호출하도록 설계할 수 있다.

로봇과 연결하기: Hugging Face Reachi Mini로 현실 세계와 인터랙션

사용자는 Hugging Face의 Reachi Mini 로봇을 연결해, 에이전트가 로봇의 머리, 귀, 카메라를 제어하도록 만든다.

에이전트는 로봇 제어 도구를 통해 "카메라로 주변을 살펴봐", "방을 둘러보는 영상을 찍어줘" 같은 행동을 실제 하드웨어 수준에서 수행한다.

이를 통해 "Richi, 감자(반려동물) 지금 뭐 하고 있어?"라고 물으면, 카메라로 소파를 확인하고, 반려견이 소파에 있으면 "소파에서 내려가"라고 말하는 식의 현실-디지털 통합 경험이 가능해진다.

이 구조는 단순한 가상 비서를 넘어서, 집 안을 이해하고 반응하는 "AI+로봇 비서"로 확장하는 좋은 예시다.

음성 인터페이스: 11 Labs로 비서에게 목소리 부여

텍스트만 주고받는 비서는 편리하지만, 실제 "사람 같은 비서" 느낌을 주기 위해서는 목소리가 중요하다.

여기서는 11 Labs의 음성 합성 API를 연결해, 에이전트가 만든 텍스트를 자연스러운 음성으로 변환한다.

그 결과 사용자는 "Richi"라는 이름의 비서에게 말 걸고, Richi가 실제로 대답하는 것처럼 느끼게 된다.

로봇(Reachi) + 음성(11 Labs) + 에이전트(모델·도구) 조합을 통해 눈, 귀, 입이 있는 디지털·물리 하이브리드 비서를 구성하게 된다.

공유와 협업: 나만 쓰는 비서에서 함께 쓰는 비서로

Brev를 이용해 DGX Spark와 Reachi 접근 권한을 다른 사람과 공유할 수 있다.

예를 들어 Anna에게 접근 권한을 주면, Anna도 "Richi, 감자 지금 뭐 해?"라고 물어보고 집 안 상황을 확인할 수 있다.

이렇게 개인이 구축한 AI+로봇 비서를 가족이나 팀원이 함께 사용하는 "공유 인프라"로 확장할 수 있으며, 여기서 중요한 것은 권한 관리와 프라이버시 설정이다.

인사이트

개인 AI 비서를 설계할 때는 "어떤 모델을 쓸까?"보다 "어떤 작업을 어떤 방식으로 처리하게 할까?"를 먼저 정의하는 것이 좋다. 프라이버시가 중요한 작업은 로컬 모델, 고성능·범용 작업은 클라우드 모델로 나누고, 인텐트 기반 라우팅으로 이를 자동화하면 사용자는 하나의 일관된 비서를 경험하면서도 보안과 성능을 모두 얻을 수 있다. 실제 구현 시에는 (1) 핵심 작업 정의(이메일, 일정, 할 일, 집 모니터링), (2) 필요한 도구 설계, (3) 로컬/클라우드 모델 선택, (4) 라우터 규칙 설계, (5) 음성·로봇 등 인터페이스 확장을 순서대로 진행하면 점진적으로 기능을 키워 갈 수 있다.