이제 LLM 이 행동(action)을 하게 된다. 에이전트가 온다.
Arc의 ACT II
당신을 대신해서 브라우징을 해주는 브라우저이다. 사용자가 어떤 쿼리를 입력했을 때 이를 브라우저가 이해하고 수행하는 것이다.
이렇게 스티브 잡스의 맥킨토시, 아이팟, 아이폰, 아이패드 공개 영상을 보고 싶으면 다음과 같이 입력하면 된다.
그러면 이렇게 4개의 비디오를 동시에 찾아준다.
하나 더 예를 들어보자. 예를 들어 lillia, llama inn과 kings imperial 에 2명 예약이라는 프롬프트를 입력하면 다음과 같이 인터넷을 찾아서 예약을 할 수 있게 정리해서 알려준다.
그리고 링크를 눌러 들어가보면 예약과 관련된 폼이 모두 채워져 있는 것을 알 수 있다.
브라우저가 LLM을 활용해서 행동을 할 수 있게 된 것이다. LLM이 action을 하게 될 것이라는 것은 많은 사람들이 예상했던 바이다.
브라우저 컴퍼니에서 이런 면들을 영상으로 재미있게 만들어 놨다.
앞으로 홍보는 이렇게 비디오로 재미있게 만들어서 하는 형태가 많을 것 같다. (윈도우나 안드로이드 버전 좀 내주길...)
Adept의 Fuyu-Heavy 모델
Adept도 디지털 에이전트를 만들고 있는 회사이다. 디지털 에이전트를 만들기 위해서는 화면을 보고 이해하는 능력이 중요하다. 그래서 이들이 만든 것이 Fuyu 멀티모달 모델이다. Adept에 따르면 이 모델은 GPT-4V와 Gemini ultra에 이어 세 번째에 위치하는 멀티 모달 모델이라고 한다. 멀티 모달 추론과 UI 이해에 뛰어나다고 한다.
위와 같이 스크린샷을 올리고 CSAT의 점수를 물어봤을 때 정확하게 3.14라고 대답하는 것을 볼 수 있다. Fuyu heavy의 데모 영상을 이 곳에서 볼 수 있다.
이 fuyu 모델은 그들의 엔터프라이즈 제품에서 선보이게 될 것 같다.
생각
LLM이 액션을 하게 된다는 것은 전부터 알고 있었지만 이렇게 보니 점점 현실화 되는 것 같다. 로봇을 통해 물리적인 움직임이 될 수 도 있지만 가장 먼저 진행되는 부분은 위와 같은 디지털 에이전트가 아닐까 싶다. 멀티모달로 눈을 가지게 되고 LLM을 활용해 액션으로 활동을 하게 된다.
이 action 부분에서 경쟁이 있을 수 도 있겠다. 예를 들어 지금 chatgpt 와 바드가 경쟁을 하고 있는데 바드가 액션을 넣어 치고 나가는 수 도 있을 것 같다. 하지만 구글은 지금 혁신 기업의 딜레마에 갇혀 있어 그렇게 혁신적으로 행동할지는 모르겠다. 아무래도 광고 사업도 있고 신경 써야할 것도 너무 많은 대기업이 되버렸기 때문이다.
그래서 Arc나 Adept 같은 기업들이 빠르게 실험을 하고 있는 것 같다.
이제 그냥 신발 하나 추천해줘만 입력하면 옵션을 보여주고 배송지까지 자동으로 입력해서 사용자의 선택을 기다리는 시기가 올 것 같다.