검색
검색
AI news 검색
Sign UpLogin

OmniParser V2 – 순수 비전 기반 GUI 에이전트를 위한 간단한 화면 파싱 도구

• 제목: "OmniParser V2 – 순수 비전 기반 GUI 에이전트를 위한 간단한 화면 파싱 도구"

• OmniParser는 사용자 인터페이스 스크린샷을 구조화된 이해하기 쉬운 요소로 파싱하는 종합적인 방법.

• OmniParser V2 릴리스(2025년 2월):

  • OmniTool 소개: Windows 11 VM을 제어 가능.
  • 지원 모델: OpenAI(4o/o1/o3-mini), DeepSeek(R1), Qwen(2.5VL), Anthropic Computer Use.

• V2 성과: 새로운 Screen Spot Pro 벤치마크에서 39.5% 달성.

• 2024년 11월: 소형 아이콘 감지 개선, 화면 요소 상호작용 예측 기능 추가된 V1.5 릴리스.

• 2024년 10월: huggingface 모델 허브에서 1위 트렌딩 모델.

• 2024년 10월: 상호작용 영역 감지 모델 및 아이콘 기능 설명 모델 릴리스.

• 2024년 9월: Windows Agent Arena에서 최고 성능 기록.

• 설치 방법:

  • 환경 설정: conda 명령어 사용.
  • V2 가중치 다운로드 필요.

• 예제:

  • demo.ipynb 파일에 간단한 예제 제공.

• 라이선스:

  • icon_detect 모델: AGPL 라이선스.
  • icon_caption_blip2 및 icon_caption_florence: MIT 라이선스.

• 인용 정보:

  • 기술 보고서 및 참고 링크 제공.

4github.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기