검색
회원가입로그인

순수 비전 기반 GUI 에이전트를 위한 OmniParser

  • 제목: "OmniParser for Pure Vision Based GUI Agent"

  • Microsoft Research와 Microsoft Gen AI에서 연구 진행

  • 개요:

    • 대형 비전 언어 모델의 성공은 사용자 인터페이스에서 에이전트 시스템을 구동할 큰 잠재력을 보여줌.
    • 그러나 다중 운영 체제와 다양한 애플리케이션에서 GPT-4V와 같은 다중 모달 모델의 잠재력이 과소평가됨.
    • 주된 이유는 다음 두 가지를 수행할 수 있는 강력한 화면 분석 기술의 부족:
      1. 사용자 인터페이스 내에서 상호작용 가능한 아이콘을 신뢰성 있게 식별
      2. 스크린샷의 다양한 요소의 의미를 이해하고 의도된 작업을 화면의 해당 영역과 정확하게 연관시키기
  • OMNIPARSER 소개:

    • 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하는 포괄적인 방법.
    • GPT-4V의 성능을 크게 향상시킴.
    • 상호작용 가능한 아이콘 탐지 데이터셋과 아이콘 설명 데이터셋을 개발.
    • 이 데이터셋을 사용해 특별한 모델 훈련: 상호작용 가능한 영역 탐지를 위한 모델과 감지된 요소의 기능적 의미를 추출하는 캡션 모델.
    • OMNIPARSER가 ScreenSpot 벤치마크에서 GPT-4V의 성능을 크게 개선.
    • Mind2Web 및 AITW 벤치마크에서도 스크린샷만으로 GPT-4V 기반을 능가함.
  • 상호작용 가능한 영역 탐지와 아이콘 기능 설명에 대한 데이터셋 제작:

    • 67,000개의 스크린샷 이미지로 구성된 데이터셋, 각 이미지에는 DOM 트리에서 파생된 상호작용 가능한 아이콘의 경계 상자가 포함됨.
    • clueweb 데이터셋에서 인기 있는 URL을 100,000개 샘플링하여 웹페이지의 상호작용 가능한 영역의 경계 상자를 수집.
    • 캡션 모델을 미세 조정하기 위해 7,000개의 아이콘-설명 쌍 수집.
  • 결과:

    • SeeClick, Mind2Web, AITW 벤치마크에서 모델 평가.
    • 모든 벤치마크에서 GPT-4V 기반을 능가함.
    • 스크린샷만으로도 추가 정보 없이 GPT-4V 기반보다 뛰어난 성능을 보임.
  • 다른 비전 언어 모델을 위한 플러그인 준비:

    • OmniParser를 사용하여 Phi-3.5-V 및 Llama-3.2-V 등 최근 발표된 비전 언어 모델과의 성능 비교.
    • 미세 조정된 상호작용 영역 탐지(ID) 모델이 모든 하위 카테고리에서 GPT-4V, Phi-3.5-V, Llama-3.2-V의 성능을 향상시킴.
    • 아이콘 기능의 지역 의미(LS)가 비전 언어 모델의 성능 향상에 크게 도움.
  • 예제:

    • Mind2Web 작업 데모 포함.
  • 인용 정보:

    • 논문 제목, 저자, 연도, arXiv 링크 제공.
    • 제목: OmniParser for Pure Vision Based GUI Agent
    • 저자: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
    • 연도: 2024
    • 링크: https://arxiv.org/abs/2408.00203

5microsoft.github.io링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기