구글 딥마인드 로보틱스, 진짜 '일하는 로봇'에 얼마나 가까워졌나

로봇이 '말을 이해하는 순간' 무엇이 달라졌나

사무실에서 자동화 얘기만 나와도 마음 한켠에 로봇 걱정을 올려두는 사람이 많습니다. 그러나 막상 실제 로봇 영상을 보면 느릿느릿 물건을 집다 흘리는 장면이 먼저 눈에 들어옵니다. 이 간극 때문에 많은 개발자와 기획자가 "진짜로 내 일에 영향을 줄 정도냐"라는 의심을 품습니다.

이번 구글 딥마인드 로보틱스 랩 투어에서 드러난 변화의 포인트는 속도나 근력 같은 전통적인 로봇 성능이 아닙니다. 언어를 이해하고, 장면을 파악하고, 거기서부터 행동 순서를 스스로 짜는 능력에 초점이 있습니다. 즉, 코드 몇 줄로 미리 짜둔 시나리오를 따라가는 기계에서, 사람의 말과 상황을 해석해 그때그때 행동을 바꾸는 에이전트에 가까워지는 흐름입니다.

여기서 많이들 놓치는 부분이 있습니다. 지금의 로봇은 여전히 느리고, 성공률도 100%가 아닙니다. 그런데도 이 기술이 의미 있는 이유는, 로봇의 한계를 "무엇을 시키느냐"가 아니라 "얼마나 많은 데이터를 먹였느냐"의 문제로 바꾸기 시작했다는 점입니다. 제 기준에서는 이 지점이 산업 구조를 뒤흔들 잠재력이 있는 변곡점입니다.

블록 쌓기에서 '상황 이해'로

몇 년 전만 해도 연구실 로봇은 거대한 레고 블록을 하나 들어 올려 위에 올려두는 수준이 전부였습니다. 반복 학습을 거쳐 그 단일 동작을 실패 없이 수행하도록 만드는 것이 목표에 가까웠습니다. 이번 랩 투어에 등장한 로봇은 같은 "물건 옮기기"라도 결이 완전히 다릅니다. 처음 보는 지퍼백에 식빵을 넣고, 초콜릿과 포도를 차례로 집어 도시락을 채우며, 지퍼를 어느 정도 힘으로 눌러야 닫히는지까지 고려한 행동을 합니다.

여기서 핵심은 로봇이 수행하는 동작 자체보다, 그 동작이 전적으로 카메라와 언어, 그리고 자기 경험 데이터만으로 결정된다는 점입니다. 개발자가 "x축으로 3cm 이동한 뒤 집게를 2mm 좁혀라" 같은 명령을 일일이 적지 않습니다. 사람이 테레오퍼레이션으로 시범을 보이면, 로봇이 그 경험을 토큰화된 시퀀스로 기억하고 일반화합니다. 저라면 이 부분을 "프로그래밍"이 아니라 "로봇용 데이터 레이블링 인프라"로 보는 것이 더 현실적인 시각이라고 생각합니다.

도시락 싸는 로봇보다 무서운 것은 '의도'다

투어에서 가장 인상적인 장면은 사실 도시락이 아니라 쓰레기 분리수거 데모입니다. "샌프란시스코 분리수거 규칙을 찾아보고, 그 기준에 맞춰 이 테이블 위 쓰레기를 정리해 달라"라는 다소 추상적인 요청이 주어집니다. 상위 레벨의 Gemini 기반 에이전트가 웹에서 규칙을 확인하고, 재활용·음식물·일반 쓰레기 규칙을 정리한 뒤, 하위 레벨 로봇 모델에게 "이 컵은 재활용 통에, 이 음식물은 여기에"라는 식의 세부 지시를 내려 장시간에 걸친 작업을 완수합니다.

한국의 IT 조직 관점에서는 이 구조가 매우 익숙합니다. 상단에는 비즈니스 로직을 책임지는 오케스트레이션 레이어가 있고, 하단에는 특정 API를 실행하는 마이크로서비스가 있는 구조와 유사합니다. 다만 이 경우 API가 "파일 업로드"가 아니라 "물체를 집어서 왼쪽 파란 통에 넣기"라는 물리적 행동이라는 점이 다를 뿐입니다. 그래서 이런 기술은 로봇 회사만의 이슈가 아니라, 백오피스 자동화를 설계해 본 개발자에게도 곧 현실이 될 시나리오라고 봅니다.

VLA와 '생각하는 로봇' 아키텍처의 진짜 의미

많은 실무자가 궁금해하는 것은 "멀티모달, VLA 같은 용어가 실제로 무엇을 가능하게 하느냐"일 것입니다. 이번 랩 투어는 바로 그 부분을 꽤 구체적으로 보여줍니다.

언어·시각·행동을 한 줄의 시퀀스로 보는 시각

딥마인드가 말하는 VLA, 즉 Vision-Language-Action 모델의 아이디어는 단순합니다. 카메라에서 들어온 픽셀 정보, 사람이 말로 건네는 지시 문장, 로봇이 실제로 취한 행동을 모두 같은 종류의 토큰 시퀀스로 취급합니다. 텍스트 언어 모델이 "단어 다음에 올 단어"를 예측하듯, VLA는 "현재 장면과 명령을 입력으로 받았을 때 다음에 나와야 할 행동 토큰은 무엇인가"를 예측하는 구조입니다.

이렇게 보면 새로울 것 같지만 사실 LLM이 코드를 생성하거나, 사용자의 클릭 시퀀스를 예측할 때 이미 비슷한 접근이 쓰이고 있습니다. 차이는 이 토큰이 현실 세계의 물리적 결과와 바로 연결된다는 점입니다. 잘못된 토큰 하나가 컵을 엎지르거나, 사람 손을 찍을 수도 있습니다. 그래서 국내 환경에서는 특히 안전과 책임 이슈를 고려한 조직 차원의 검증 절차가 먼저 따라와야 합니다.

여기서 많이들 놓치는 함정이 하나 있습니다. 텍스트와 이미지에서 통했던 "스케일이 답이다" 전략이 로봇에도 그대로 적용될 것이라고 단순하게 가정하는 경우입니다. 물리 데이터는 인터넷처럼 공짜로 쌓이지 않습니다. 로봇 한 대가 하루 종일 움직여도, 영상·센서·행동 로그를 포함한 양질의 데이터는 생각보다 빠르게 늘어나지 않습니다. 제 기준에서는 "데이터 수집 자동화와 시뮬레이션, 인간 시범 활용 방식"을 정교하게 설계하지 않으면, 국내 로봇 스타트업이 이 레이스에서 버티기 어렵다는 판단이 듭니다.

'생각을 먼저 말하는 로봇'이 주는 힌트

이번 세대 모델에서 흥미로운 변화는 로봇이 행동하기 전에 자신의 "생각"을 텍스트로 내뱉도록 설계했다는 점입니다. 예를 들어 세탁물을 분류하는 휴머노이드는, 빨간 티셔츠를 집기 전에 "이 옷은 색이 진하니 어두운 세탁물 통으로 보내야 한다"는 식의 문장을 먼저 생성합니다. 그 다음에 실제 팔을 움직입니다. 언어 모델에서 체인 오브 쏫을 강제로 유도하면 정답률이 올라가는 것처럼, 로봇에서도 내적 독백을 강제하는 방식이 일반화 성능을 높이는 효과를 보인 셈입니다.

이 설계는 엔터프라이즈 적용 관점에서 꽤 유용한 힌트를 줍니다. 로봇이 왜 그런 행동을 했는지 설명 가능한 로그를 남기기 때문입니다. 저라면 제조 라인이나 물류 센터에 이 기술을 들여올 때, 하드웨어 성능보다도 이 "생각 로그"를 운영 시스템에 어떻게 녹일지부터 설계하겠습니다. 장애 분석, 품질 감사, 책임 소재 규명에서 언어 기반 로그는 사람 조직과 로봇 시스템 사이의 인터페이스 역할을 할 수 있기 때문입니다.

반대로 단순 피킹 작업처럼 설명 가능성이 굳이 중요하지 않고, 반복성이 매우 높은 업무라면 굳이 이런 복잡한 VLA 구조가 필요하지 않을 수 있습니다. 이 경우에는 오히려 고전적인 산업용 로봇과 규칙 기반 비전 시스템이 비용 대비 더 나을 수 있습니다. 이런 페르소나 분기를 하지 않고 "최신이니까 다 좋다" 식으로 접근하면, 도입 효과와 비용이 맞지 않는 프로젝트가 나오기 쉽습니다.

시작 전 반드시 체크할 것

거창한 로봇 혁명 얘기를 듣고 나면, 막상 내 조직에 무엇을 해야 할지 막막해지기 마련입니다. 현실적인 제약과 첫 행동을 한 번 정리해 볼 필요가 있습니다.

누구에게 기회이고, 누구에게는 과장인가

이 기술은 로봇 하드웨어를 직접 만드는 회사보다, 복잡한 물리 업무를 가진 서비스 운영 쪽에 먼저 기회가 됩니다. 물류 센터, 리테일 매장, 병원 물품 관리, 대형 프랜차이즈 주방처럼 작업 종류는 많지만 규칙과 목표가 비교적 명확한 환경이 대표적입니다. 이들은 멀티모달 LLM과 VLA를 얹은 로봇 솔루션이 등장하는 순간, 사람 중심으로만 짜인 프로세스를 다시 설계할 여지가 생깁니다.

반대로 작은 창고, 제품 구성이 수시로 바뀌는 소매점, 또는 고난도 수작업이지만 작업량이 크지 않은 곳은 당분간은 관망하는 편이 낫습니다. 하드웨어와 시스템 통합 비용이 여전히 비싸기 때문입니다. 저라면 이런 조직에서는 지금 당장 로봇을 들여오기보다, 업무 매뉴얼과 작업 동선을 디지털 문서와 영상으로 체계화하는 데 먼저 투자하겠습니다. 그 데이터가 곧 로봇 학습 데이터의 씨앗이 되기 때문입니다.

현실적 제약과 첫 행동

현실적으로 가장 큰 제약은 두 가지입니다. 하나는 앞에서 언급한 물리 데이터 부족입니다. 인터넷 텍스트처럼 "크롤링으로 긁어오면 된다" 수준이 아닙니다. 인간 작업자가 실제 도구를 어떻게 쥐고, 어느 정도 힘을 주는지, 실패했을 때 어떻게 재시도하는지까지 기록된 고품질 데이터가 필요합니다. 또 하나는 책임과 안전의 문제입니다. 로봇이 잘못된 판단으로 사람을 다치게 하거나, 설비를 파손했을 때 어디까지를 시스템 문제로 볼 것인지, 어떤 로그와 권한 구조를 의무적으로 요구할지에 대한 조직 차원의 합의가 필요합니다.

그래서 첫 행동은 거창한 로봇 도입 계획이 아닐 수 있습니다. 자신이 몸담은 조직에서 물리적 상호작용이 많이 일어나는 구간을 하나 골라, 그 업무를 언어로 설명했을 때 얼마나 모호함 없이 전달되는지 점검하는 것부터가 시작입니다. 동시에 그 과정을 영상으로 찍어 저장하고, 작업자의 손 움직임과 실패 패턴까지 기록할 방법을 고민해 보는 것이 좋습니다. 이렇게 보면, 구글 딥마인드 로보틱스가 보여준 미래는 어느 날 갑자기 떨어지는 마법이 아니라, 지금 당장 시작할 수 있는 데이터 수집 습관과 프로세스 설계 위에 천천히 쌓이는 변화에 가깝습니다.

출처 및 참고 :