순수 비전 기반 GUI 에이전트를 위한 OmniParser

2024-10-26

제목: "OmniParser for Pure Vision Based GUI Agent"
Microsoft Research와 Microsoft Gen AI에서 연구 진행
개요:
- 대형 비전 언어 모델의 성공은 사용자 인터페이스에서 에이전트 시스템을 구동할 큰 잠재력을 보여줌.
- 그러나 다중 운영 체제와 다양한 애플리케이션에서 GPT-4V와 같은 다중 모달 모델의 잠재력이 과소평가됨.
- 주된 이유는 다음 두 가지를 수행할 수 있는 강력한 화면 분석 기술의 부족:
  1. 사용자 인터페이스 내에서 상호작용 가능한 아이콘을 신뢰성 있게 식별
  2. 스크린샷의 다양한 요소의 의미를 이해하고 의도된 작업을 화면의 해당 영역과 정확하게 연관시키기
OMNIPARSER 소개:
- 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하는 포괄적인 방법.
- GPT-4V의 성능을 크게 향상시킴.
- 상호작용 가능한 아이콘 탐지 데이터셋과 아이콘 설명 데이터셋을 개발.
- 이 데이터셋을 사용해 특별한 모델 훈련: 상호작용 가능한 영역 탐지를 위한 모델과 감지된 요소의 기능적 의미를 추출하는 캡션 모델.
- OMNIPARSER가 ScreenSpot 벤치마크에서 GPT-4V의 성능을 크게 개선.
- Mind2Web 및 AITW 벤치마크에서도 스크린샷만으로 GPT-4V 기반을 능가함.
상호작용 가능한 영역 탐지와 아이콘 기능 설명에 대한 데이터셋 제작:
- 67,000개의 스크린샷 이미지로 구성된 데이터셋, 각 이미지에는 DOM 트리에서 파생된 상호작용 가능한 아이콘의 경계 상자가 포함됨.
- clueweb 데이터셋에서 인기 있는 URL을 100,000개 샘플링하여 웹페이지의 상호작용 가능한 영역의 경계 상자를 수집.
- 캡션 모델을 미세 조정하기 위해 7,000개의 아이콘-설명 쌍 수집.
결과:
- SeeClick, Mind2Web, AITW 벤치마크에서 모델 평가.
- 모든 벤치마크에서 GPT-4V 기반을 능가함.
- 스크린샷만으로도 추가 정보 없이 GPT-4V 기반보다 뛰어난 성능을 보임.
다른 비전 언어 모델을 위한 플러그인 준비:
- OmniParser를 사용하여 Phi-3.5-V 및 Llama-3.2-V 등 최근 발표된 비전 언어 모델과의 성능 비교.
- 미세 조정된 상호작용 영역 탐지(ID) 모델이 모든 하위 카테고리에서 GPT-4V, Phi-3.5-V, Llama-3.2-V의 성능을 향상시킴.
- 아이콘 기능의 지역 의미(LS)가 비전 언어 모델의 성능 향상에 크게 도움.
예제:
- Mind2Web 작업 데모 포함.
인용 정보:
- 논문 제목, 저자, 연도, arXiv 링크 제공.
- 제목: OmniParser for Pure Vision Based GUI Agent
- 저자: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
- 연도: 2024
- 링크: https://arxiv.org/abs/2408.00203

5microsoft.github.io링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기