Skip to main content
page thumbnail

2025년 AI 최신 동향, Figure 03, VO3.1 업데이트 및 주요 벤치마크 분석

DODOSEE
DODOSEE
Views 90
Summary

AI 클립으로 정리됨

출처 및 참고 : https://www.youtube.com/watch?v=bOVd1hxWZZc

AI 및 로봇 분야는 2025년에도 빠르게 변화하고 있습니다. 최근 공개된 여러 사례와 데이터를 토대로 현재의 트렌드와 실질적인 사업 분야를 정리해봅니다.

Figure Robotics의 새로운 도전과 Figure 03

최근 Figure Robotics의 대표 브렛 애드콕(Brett Adcock)이 Figure 03이라는 3세대 휴머노이드 로봇을 발표했습니다. 이 로봇은 기존 파트너였던 오픈AI와의 협업에서 한 단계 더 나아가, 자체적인 큰 돌파구를 마련했다고 알려졌습니다.

특이한 점은 자체 세계 모델 'Helix'를 탑재해 완전한 온보드(자체 연산) 처리가 가능하다는 점입니다. 별도의 클라우드 연결 없이 가정에서 직접 활용할 수 있습니다. 실제 데모 영상에서는 기존 로봇들에서 흔히 볼 수 있는 텔레오퍼레이션(원격조작)이 배제돼, 로봇의 완전 자율 동작을 입증했다고 볼 수 있습니다.

가정용 로봇에 필수적인 조건으로 '의류형 외피'가 강조되고 있습니다. 이는 하드웨어를 직접 노출시키는 방식이 아닌, 섬유나 옷감으로 감싸 친숙함과 안전감을 높인다는 의미입니다. 실제로 사용자 테스트 결과, 옷을 입히지 않으면 거부감이 크다는 의견이 다수였던 것으로 보입니다.

Figure Robotics는 내년부터 일부 가정에 로봇을 직접 공급할 계획을 갖고 있습니다. 만약 이 일정이 지켜진다면, 일반 가정에서 실제로 로봇을 마주할 날이 머지않았습니다.

VO3.1 공개 루머와 실제 출시 일정

최근 AI 커뮤니티에서는 VO3.1이라는 모델의 출시 루머가 활발히 돌고 있습니다. 일부에서는 'Vadu AI에 독점 공급된다'는 정보도 있으나, 구글 딥마인드의 로건 킬패트릭(Logan Kilpatrick)독점 공급 및 출시 일정에 대한 모든 주장에 확실한 반박을 내놓았습니다. 실제 출시 시점과 대상은 아직 불명확하며, 정확한 정보로 확인하는 것이 중요합니다.

Arc AGI 벤치마크에서의 최신 AI 모델 경쟁

Arc AGI 벤치마크는 상업용 언어모델의 성능을 평가하는 대표적인 지표입니다. 최근 공개된 결과에 따르면, 오픈AI의 GPT-5 Pro가 Grock 4를 근소하게 앞서며, 상업 모델 중 최고 성능을 기록했습니다. 정확히는 GPT-5 Pro가 약 70.2점, Grock 4가 66점 내외에 위치하고 있습니다.

하지만, 03 Preview 모델은 75.7점으로 단연 최고 점수를 기록하고 있습니다. 문제는 가격입니다. GPT-5 Pro는 과제당 약 478달러, 03 Preview는 약 200~300달러로 한 과제당 비용이 매우 높음이 드러났습니다. 현 단계에서는 성능이 올라갈수록 비용 부담도 커지는 구조입니다.

특히, 최고 점수 80%를 달성한 사례는 Grock 4를 기반으로 한 제레미 버만(Jay Burman)의 연구에서 나왔습니다. 그는 진화적 트리 탐색(evolutionary tree search)과 테스트 기반 파이썬 함수 생성 방식을 섞어서 최적의 솔루션을 도출하는 방법을 적용했습니다. 이 접근법은 최근 Sakana AI의 'Darwin Girdle Machine'이나 딥마인드, 오픈AI에서도 활용되는 진화적 탐색 방식과 유사합니다. 복수 모델 답변 샘플링, 평가, 반복 개선 과정을 거치는 방식이 실제로 성능 향상에 효과적임이 증명되고 있습니다.

AI 인재 이동과 기업 문화

최근 관련 업계에서는 Anthropic의 내부 정책과 대외 발언이 인재 이탈 요인으로 지목된 바 있습니다. 대표적 예로 중국인 연구원인 '순유 야오(Shunyu Yao)'가 Anthropic에서 딥마인드로 이직했습니다. 이 중 약 40%는 Anthropic의 대중국 발언에 대한 불만이었고, 나머지는 내부 사정 때문이라고 알려졌습니다. 적절한 기업 문화와 다양성 존중이 AI 분야 인력 유지에 중요함을 다시 한 번 보여주는 사례입니다.

2025년 AI 동향: 미국, 중국의 경쟁과 기업 도입 확산

오픈AI가 여전히 선두를 달리지만, 중국이 2위권으로 빠르게 추격하고 있습니다. 실제로 Quen, DeepSeek, Kimmy, Moonshot 등 중국 및 오픈소스 모델들의 품질 개선 속도가 매우 빠릅니다.

코딩·수학 등 특정 분야에서 검증 가능한 정답(Verifiable Reward)에 초점을 맞춘 강화학습(RLVR)이 모델 성능 향상에 핵심적인 역할을 하고 있습니다. 실제로, AT Coder 세계대회에서 오픈AI 모델이 인간을 거의 압도할 만큼 강력한 성능을 보여주었으며, RLVR을 주요 원동력으로 꼽았습니다.

또한, Alpha Zero가 체스 그랜드마스터에게 신개념을 직접 제공한 사례처럼, AI가 실제 인간 전문가에게 새로운 전략을 제안하는 단계까지 발전했습니다.

과학 분야에서도 Google DeepMind의 '코-사이언티스트', 스탠포드의 '버추얼랩' 등이 실제 새로운 과학적 발견과 검증을 수행하고 있습니다. GPT-5 Pro가 수학 논문의 핵심 아이디어 제시에 실질적으로 기여한 사례도 등장했습니다.

AI 상업화와 시장 변화

현재 미국 내 기업의 44%가 AI 서비스에 비용을 지불하고 있으며, 이는 2023년 5%에서 크게 증가한 수치입니다. 평균 계약 금액 또한 50만 달러에서 내년에는 100만 달러를 넘을 것으로 예상되고 있습니다. AI 소프트웨어의 12개월 유지율도 80%를 넘어섰습니다.

특히, 대규모 자본 투입은 주로 기업이 보유한 자산에서 나온 현금으로 이루어지고 있습니다. 즉, 거품 논란과 달리 외부 차입이 아닌 보유 자금 기반의 인프라 투자가 대부분입니다. 실제로 대표적인 투자 전문가 스티브 아이즈먼(Steve Eisman)도 유튜브를 통해 'AI 시장이 아직 버블이 아니다'라는 견해를 밝혔습니다.

실질적 시사점 및 적용 방안

  • 가정용 로봇의 성공적 도입을 위해서는 소프트웨어 자율성과 함께 친숙한 디자인, 사용자 맞춤형 기능이 중요함

  • 최신 AI 모델을 실제 업무에 적용할 경우, 높은 성능의 서비스일수록 비용이 높기 때문에, 사용 목적과 예산을 신중하게 검토해야 함

  • AI 기술 도입 및 연구 인력 확보 시 조직의 다양성 존중, 내부 문화 개선이 필수적임

  • 코딩이나 수학과 같이 정답이 명확한 분야에선 RLVR 기반 접근이 경쟁력을 높이는 데 효과적임

  • 비즈니스 의사결정에 있어, 시장 변동성과 AI 투자 현황을 종합적으로 고려해야 함

AI 분야는 기술 혁신과 시장 변화가 동시에 가속화되고 있습니다. 최신 모델들과 실제 도입 사례를 꾸준히 확인하면서 자신의 목적에 가장 적합한 방법을 고민해볼 수 있습니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.