'내 알렉사'를 만든 남자, 우리가 진짜 배워야 할 것

클라우드 알렉사 vs 자가제조 알렉사, 싸움의 본질

집에 알렉사나 구글 홈 하나쯤 올려둔 사람이라면, 언젠가 이런 생각을 하게 됩니다. 이 작은 스피커가 고장 나거나 서비스가 중단되면 내 스마트홈은 어떻게 되는가, 그리고 이 모든 음성이 어디까지 수집되는가. 이 영상의 주인공은 바로 그 의심에서 출발해, 아예 자신의 알렉사를 다시 만든 사람입니다.

그가 한 일 자체는 복잡하지 않습니다. 미니 PC에 홈 어시스턴트를 올리고, 여기에 마이크가 달린 전용 단말을 붙였습니다. 그리고 집 안의 모든 스마트 기기를 이 한 곳으로 모았습니다. 중요한 지점은 이 구조입니다. 기존 알렉사는 클라우드가 두뇌이고 스피커는 단순 터미널입니다. 이 프로젝트는 반대로 집 안의 미니 PC가 두뇌가 되고, 마이크 디바이스와 에코 쇼는 단순 입출력 장치로 전락합니다.

이 전환이 주는 효과는 세 가지입니다. 첫째, 인터넷이 끊겨도 집 안 자동화는 계속 돌아갑니다. 둘째, 기업이 요금제를 바꾸거나 서비스를 종료해도 코어 로직은 유지됩니다. 셋째, 음성과 센서 데이터가 집 밖으로 나가지 않습니다. 같은 기능처럼 보이지만, 인프라의 중심이 어디에 있느냐에 따라 위험 구조가 완전히 달라진다는 점이 실무자에게 주는 핵심 메시지입니다.

홈 어시스턴트라는 '진짜 허브'

이 영상에서 가장 강조되는 것은 홈 어시스턴트의 위치입니다. 단순한 대시보드 도구가 아니라, 모든 기기가 이곳에 등록되고, 알렉사조차 이 허브를 통과해 기기를 제어합니다. 이미 많은 사람은 알렉사를 스마트홈의 중심이라고 생각하지만, 실제로는 클라우드 음성 인터페이스 하나에 불과합니다.

실무 관점에서 보면 여기서 중요한 교훈이 생깁니다. 스마트홈을 확장할수록 음성 스피커보다 로컬 허브의 설계가 중요합니다. 기기를 어디에 붙이고, 어떤 자동화를 허브 레벨에서 처리하고, 어떤 부분만 음성이나 LLM에 개방할지 구조적으로 나눠야 합니다. 이 작업이 먼저 끝나야 나중에 알렉사를 버리든, 다른 서비스로 갈아타든 리스크를 통제할 수 있습니다.

'마이크'와 '두뇌'를 분리했을 때 생기는 자유도

영상 속에서 흰색 큐브 마이크는 20초 만에 홈 어시스턴트에 붙고, 바로 음성 명령을 받아 조명을 켭니다. 이 과정에 클라우드는 필요 없습니다. 마이크 장비는 쓸모 있는 입구가 되고, 두뇌는 집 안 서버입니다. 이 단순한 분리가 주는 자유도가 큽니다. 마이크 장비는 언제든 교체할 수 있고, 음성 인식 엔진이나 TTS 엔진도 상황에 따라 바꿀 수 있습니다.

기업의 완성형 스피커는 편리하지만, 구조를 열어두지 않습니다. 반대로 홈 어시스턴트 기반 구조는 초기 진입 장벽이 있지만 한 번 틀을 잡으면 장기적으로 의존도를 낮춥니다. 결국 선택의 문제입니다. 지금의 편리함을 사는 대신 플랫폼 종속을 감수할 것인지, 초기 설계 비용을 들여 구조적 자유를 확보할 것인지입니다.

로컬 LLM의 허상, 어디까지 기대해야 하는가

AI에 관심 있는 실무자는 한 번쯤 이런 꿈을 꿉니다. 집 안에 작은 챗GPT 같은 것을 돌려서 모든 걸 자연어로 제어하는 그림입니다. 이 영상 속 실험이 바로 그 판타지를 정면으로 검증합니다.

"다 할 수 있다"는 환상과, 실제로 돌려본 결과

그는 맥에 로컬 LLM을 올리고, 홈 어시스턴트의 상태를 함수 호출로 조회하도록 구성했습니다. 그래서 "문이 잠겼냐", "와이프가 집에 있냐" 같은 질문에 LLM이 실제 엔티티 상태를 읽고 대답합니다. 겉으로 보면 거의 SF입니다. 다만 여기서 바로 한계가 드러납니다. 모델이 복잡한 요청을 받을 때 실제로는 아무것도 안 했으면서, 했다고 말해버리는 문제가 반복됩니다.

로컬 LLM의 문제는 단순히 속도가 느리다는 수준이 아닙니다. 결정적으로 신뢰성이 떨어집니다. 클라우드 LLM보다 작은 모델을 쓰기 때문에 지식 범위도 좁고, 추론 능력도 제한적입니다. 홈 어시스턴트와의 함수 연동까지 포함하면 구조가 복잡해져 디버깅도 어렵습니다. 결과적으로 그는 "이건 쓰레기지만 그 중 나은 쓰레기"라는 냉정한 평가를 내립니다.

결국 자동화로 회귀하는 이유

흥미로운 지점은 여기서의 전략 수정입니다. 그는 자주 쓰는 패턴, 예를 들어 크리스마스 조명, 특정 음악 재생, 분위기 전환 모드 같은 것은 모두 자동화로 떨어뜨립니다. 음성 인식은 단지 트리거 문장을 감지하는 역할만 맡깁니다. 그리고 LLM은 날씨 질문이나 위치 조회처럼, 자동화로 만들기 애매한 소수의 기능에만 제한합니다.

이 구조가 시사하는 바가 분명합니다. 스마트홈에서 LLM을 만능 두뇌로 쓰겠다는 발상은 현재 시점에서는 과합니다. 반복 가능하고, 실패하면 곤란한 행동은 자동화와 규칙 기반 로직에 두고, 불완전해도 괜찮은 대화형 질의만 LLM에 맡겨야 합니다. 결국 AI는 자동화의 보조 도구로 쓰일 때 안정적인 가치를 만듭니다.

인프라까지 로컬로 끌어들이는 이유

스마트 스피커를 자작하는 수준을 넘어서, 그는 백업과 영상 저장까지 로컬 NAS로 끌어옵니다. 많은 실무자는 여기서 과잉이라고 느낍니다. 구글 드라이브 백업이면 충분하지 않냐는 반응이 자연스럽습니다.

데이터 주권과 비용 구조의 문제

그가 NAS를 쓰는 이유는 단순히 스폰서 때문만은 아닙니다. 스마트홈 전체를 로컬화한다는 목표에서 보면, 백업을 다시 클라우드로 보내는 것은 구조적으로 모순입니다. 특히 카메라 영상을 프리깃 같은 시스템으로 장기간 저장하기 시작하면, 구글 드라이브는 보안과 비용 면에서 애매한 선택이 됩니다. 저장 용량이 커질수록 구독료는 눈덩이처럼 불어납니다.

반면 로컬 NAS는 초기 비용이 크지만, 고용량 저장소를 한 번 마련하면 비용이 정액에 가깝습니다. 또한 2베이 이상 장비에서 미러링 구성을 하면 디스크 파손 리스크도 줄일 수 있습니다. 접근 제어와 2FA를 갖춘 브랜드를 고르면, 적어도 무제한 드라이브 공유 링크를 돌리다 계정이 털리는 상황보다는 통제 가능성이 큽니다. 스마트홈과 CCTV를 묶는 순간, 저장소는 단순 편의 기능이 아니라 보안 설비의 일부가 됩니다.

에코 쇼를 다시 쓰는 방식이 보여주는 미래

흥미로운 장면 하나가 있습니다. 알렉사를 끄고, 에코 쇼를 단순한 디스플레이 겸 스피커로 재활용하는 부분입니다. 화면에는 스타트렉 스타일의 홈 어시스턴트 대시보드가 뜨고, 제스처로 조명을 조절합니다. 이 장면은 하나의 질문을 던집니다. 앞으로 집 안의 디바이스는 누구의 UI를 기본으로 쓸 것인가입니다.

지금은 각 기기가 자기 앱과 자기 클라우드를 강요합니다. 그러나 로컬 허브와 로컬 저장소를 중심에 두면, 이 모든 기기는 단순한 센서와 액추에이터, 화면과 스피커로 다시 정의됩니다. 브랜드마다 분리된 UI가 아니라, 집주인이 설계한 단일 UI가 집안 표준이 됩니다. 이 방향성은 단순 취미를 넘어, 기업 환경에서도 참고할 만한 아키텍처 변화입니다.

시작 전 반드시 체크할 것

스마트홈을 이 정도 수준으로 로컬화하고 싶어지는 사람도 많겠지만, 현실에서 바로 따라 하는 것은 위험합니다. 특히 실무자라면 개인 취미와 운영 가능한 시스템을 냉정하게 구분해야 합니다.

이 전략이 맞지 않는 사람

우선 이 구조는 세 가지를 필요로 합니다. 지속적인 시간 투자, 장애를 직접 처리할 각오, 그리고 어느 정도의 하드웨어 비용입니다. 알렉사나 구글 홈은 문제가 생기면 고객센터 책임입니다. 그러나 홈 어시스턴트와 로컬 LLM, NAS 조합은 문제가 생기는 순간 모두 자신의 책임이 됩니다.

또한 LLM의 한계를 받아들일 수 없는 사람에게는 이 방식이 큰 스트레스를 줍니다. 자연어로 뭐든 말하면 알아서 다 해주길 기대한다면, 지금 시점의 로컬 모델은 그 기대를 반복해서 깨뜨립니다. 자동화를 YAML과 UI로 직접 짜는 것이 귀찮게 느껴진다면, 이 프로젝트는 즐거움보다 피로가 먼저 쌓입니다. 그런 경우라면 차라리 상용 클라우드 스피커를 유지하고, 홈 어시스턴트는 단순 대시보드와 일부 자동화 허브로만 쓰는 절충이 더 현실적입니다.

첫 번째 행동, 어디서부터 손대야 하는가

그럼에도 구조적 독립을 향해 한 발 정도는 떼고 싶다면, 출발점은 분명합니다. 먼저 집 안의 모든 스마트 기기를 홈 어시스턴트 한 곳으로 모으는 작업부터 시작하는 편이 좋습니다. 아직 알렉사를 버릴 필요는 없습니다. 다만 모든 기기의 '진짜 상태'와 제어 권한이 홈 어시스턴트에 모이도록 통합하는 것이 1단계입니다.

그 다음 단계에서야 마이크 디바이스를 하나 들여와 로컬 음성 제어를 붙이고, 가장 자주 사용하는 한두 가지 시나리오만 자동화로 만듭니다. 예를 들어 대표 조명 장면 하나, 음악 재생 루틴 하나 정도입니다. 이 두 가지만 안정적으로 돌아가기 시작해도, 클라우드 스피커에 대한 의존도가 얼마나 줄어드는지 체감하게 됩니다. 이때까지 과정을 직접 경험하고 나면, 로컬 LLM과 NAS까지 확장할지 여부는 그때 다시 판단해도 늦지 않습니다. 결국 이 프로젝트가 던지는 핵심 메시지는 기술 과시가 아닙니다. 집과 데이터를 누구의 손에 둘 것인지, 그리고 그 선택을 유지할 만큼의 책임을 감수할 의지가 있는지에 대한 질문입니다.

출처 및 참고 :