제너럴 로봇 개발과 물리적 지능

왜 로봇을 만드는 게 이렇게 어려울까?

로봇을 실제 세상에 적용하려면, 각 분야마다 완전히 새로운 회사와 시스템을 구축해야 했어요. 예를 들어, 물류, 실험실, 주방, 수술 등 등. 각각 다른 하드웨어, 소프트웨어, 행동 패턴이 필요해서 기존엔 특정 목적에만 맞는 로봇만 개발됐고, 일상 속에 잘 안 들어왔던 거죠.

범용 로봇 모델의 힘

최근엔 여러 분야에서 "파운데이션 모델" 방식이 성공하며 로봇에도 이런 접근법이 적용되고 있어요. 하나의 커다란 학습 모델을 구축해서 다양한 환경과 작업에 적용하는 것! 예를 들어, 언어 모델처럼 다양한 데이터에 기반해서 로봇이 새로운 작업을 빠르게 배우게 만들 수 있는 거예요.

데이터: 양보다 다양성이 더 중요하다

데이터가 많아야 모델이 잘 동작하지만, 단순 반복된 작업만 담긴 데이터(예: 공장 자동화)는 다양성이 부족해요. 유튜브의 사람 영상이나 시뮬레이션 데이터도 한계가 있어요. 진짜 중요한 건, 다양한 상황과 행동을 담은 실제 데이터로 로봇을 훈련시키는 거예요. 규모와 다양성이 모두 필요합니다.

단계를 쪼개고 점진적으로 어려움을 높이기

로봇에게 어려운 작업을 한 번에 시키지 않고, ‘쉬운 버전’부터 시작해서 점점 어려움을 높이면 더 잘 배웁니다. 예를 들어, 빨래 개기 로봇을 개발할 때 처음엔 같은 브랜드의 셔츠만, 그다음엔 구겨진 상태로, 그 다음엔 다양한 옷과 바구니까지 점차 확장했어요.

고품질 시연 데이터와 학습 전략

단순히 모든 데이터를 넣어서 학습시키는 것보다, 먼저 전체 데이터로 사전학습(pre-training)을 하고, 선택적으로 잘 된 시연 데이터만 골라서 미세조정(post-training)하면 성능이 크게 올라갑니다. 실제로 이 방식으로 빨래 개는 로봇의 성공률과 속도가 개선됐어요.

사전 훈련된 대형 모델과 파운데이션 모델 활용

파운데이션 모델(예: Polygeemma VLM)을 도입해, 로봇이 이전보다 훨씬 다양한 옷을 개거나, 새로 본 아이템에도 적응하는 것을 보여줬어요. 모델 크기가 커질수록, 여러 환경과 작업을 더 잘 처리하게 됩니다.

환경 적응: 새로운 장소에서도 성공하기

로봇을 사전 학습 데이터에만 묶지 않고, 여러 집, 주방, 침실 등 다양한 진짜 환경에서 데이터 수집했어요. 이렇게 ‘다양한 환경’에서 학습시키니, 로봇이 한 번도 가보지 않은 에어비앤비 집에서도 지시를 잘 따르며 작동했습니다. 데이터의 다양성은 실세계 일반화의 핵심이에요.

인간과의 유연한 상호작용: 오픈 프롬프트와 즉흥 수정

로봇이 고정된 명령만 아니라, 대화식으로 다양한 요청(“베이컨 없이 샌드위치 만들어줘”, “쓰레기만 치워줘”)이나 중간에 직접 개입해서 상황을 바꿔도 대응하는 모습을 보여줍니다. 여기서는 로봇 데이터를 인간의 질문으로 바꿔주는 '언어모델 기반 시뮬레이션'과 계층적 정책(hierarchical policy) 모델이 큰 역할을 했죠.

데이터와 모델 실험: 정량적 평가로 일반화 성능 측정

단순 ‘느낌상’이 아니라, 다양한 환경에서 얼마나 잘 수행했는지, 데이터 구성에 따라 성능이 어떻게 변하는지 실제로 수치로 확인합니다. 환경이 많아질수록, 데이터가 다양해질수록 일반화 성능이 크게 오르는 것이 확인됐습니다.

한계와 앞으로의 과제

아직도 속도, 부분 관찰, 계획력, 정확성 등에서 도전이 남아 있고, 실패 사례도 종종 나와요(예: 오븐을 서랍으로 착각). 진짜 범용 로봇이 되려면 더 많은 연구, 더 방대한 현실 데이터, 그리고 오픈소스 협업이 필수예요.

업계와 연구 현장의 차이, 그리고 기회

산업계는 리소스(데이터, 장비, 컴퓨팅 파워)가 더 많지만, 자원이 많다고 꼭 생산적이지는 않아요. 학계에선 효율적이고 창의적인 알고리즘 연구가 활발합니다. 인프라·로봇 소프트웨어·오픈소스 생태계 등 다양한 분야에서 큰 발전 가능성이 열려 있어요.

합성 데이터와 시뮬레이션의 역할

실제 데이터는 꼭 필요하지만, 시뮬레이션과 합성 데이터(특히 평가 측면)는 다양한 환경 테스트에서 매우 유용해요. 그리고, 로봇이 자기 스스로 실험하며 학습하는 ‘강화학습’도 앞으로 중요한 역할을 할 전망입니다.

모델 크기와 지식 분산: 대형 모델 vs 외부 지식

모델이 클수록 성능이 좋지만, ‘외부 데이터베이스(지식)’랑 연동하는 방식도 활발히 연구 중입니다. 하지만 실제로 둘의 적절한 분배는 까다롭고, 각 상황에 맞는 최적화가 필요합니다. 앞으로 흥미로운 도전과제죠.

출처 :