OmniParser V2 – 순수 비전 기반 GUI 에이전트를 위한 간단한 화면 파싱 도구
• 제목: "OmniParser V2 – 순수 비전 기반 GUI 에이전트를 위한 간단한 화면 파싱 도구"
• OmniParser는 사용자 인터페이스 스크린샷을 구조화된 이해하기 쉬운 요소로 파싱하는 종합적인 방법.
• OmniParser V2 릴리스(2025년 2월):
- OmniTool 소개: Windows 11 VM을 제어 가능.
- 지원 모델: OpenAI(4o/o1/o3-mini), DeepSeek(R1), Qwen(2.5VL), Anthropic Computer Use.
• V2 성과: 새로운 Screen Spot Pro 벤치마크에서 39.5% 달성.
• 2024년 11월: 소형 아이콘 감지 개선, 화면 요소 상호작용 예측 기능 추가된 V1.5 릴리스.
• 2024년 10월: huggingface 모델 허브에서 1위 트렌딩 모델.
• 2024년 10월: 상호작용 영역 감지 모델 및 아이콘 기능 설명 모델 릴리스.
• 2024년 9월: Windows Agent Arena에서 최고 성능 기록.
• 설치 방법:
- 환경 설정: conda 명령어 사용.
- V2 가중치 다운로드 필요.
• 예제:
- demo.ipynb 파일에 간단한 예제 제공.
• 라이선스:
- icon_detect 모델: AGPL 라이선스.
- icon_caption_blip2 및 icon_caption_florence: MIT 라이선스.
• 인용 정보:
- 기술 보고서 및 참고 링크 제공.
4github.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.