Tencent 의 WebVoyager 는 브라우저에서 작업을 수행할 수 있습니다.

텐센트에서 Google, Amazon, Wikipedia에서 태스크를 수행할 수 있는 AI 에이전트에 대한 연구 결과를 공개했습니다. 웹 작업의 55% 이상을 성공적으로 완료했다고 하네요.

LLM과 시각정보를 분석할 수 있는 멀티모달 AI를 활용합니다. 이들이 연구하는 WebVoyager 시스템은 웹 브라우저를 프로그래밍 방식으로 제어할 수 있는 Selenium, GPT-4V 모델, 스크린샷을 기반으로 한 주요 시각적 입력, 마우스와 키보드 조작을 통한 상호 작용 사이클 등을 포함합니다.

Tencent 의 WebVoyager 는 브라우저에서 작업을 수행할 수 있습니다. image 1

이런 식으로 웹의 스크린샷을 보고 행동을 결정합니다.

15개의 가장 많이 쓰이는 사이트에서 300개의 웹 작업을 수행했고 정확하게는 55.7%의 성공율을 보였다고 합니다.

아직 인간의 수준에는 미치지 못하지만 웹을 탐색하는 AI 시스템의 중요한 단계를 보여줍니다.

참고 : Teaching AI to see websites like a human made it more capable

생각

예전에 아마존에서 쇼핑하는 AI랑 비슷하네요. 자율에이전트 : GPT4-V를 활용해 아마존에서 물건사기

웹보이저는 인텔리전트 에이전트나 자율 에이전트 분야에 속하는 거 같습니다. 이렇게 AI가 사람처럼 인터넷을 돌아다니면 나중에는 누가 사람인지 AI 인지 구분이 어려울 수 도 있을 것 같네요.

긍적적으로 생각하면 많은 일들을 자동화할 수 있습니다. 나 대신 쇼핑몰에 들어가서 물건을 구매해 줄 수 도 있겠네요. 웹 분야가 아니라 물리적인 영역에도 적용하면 나 대신 설거지나 빨래를 해주는 AI도 나오게 되겠죠? 아니면 그 정도는 인간이 보람을 느낄 수 있는 일의 영역으로 남게 될까요?

이런 방식으로 챗봇을 넘어 자동화를 할 수 있는 AI의 영역에 대해 우리가 알아두었으면 좋겠습니다~