검색
검색
공개 노트 검색
회원가입로그인

애플의 Ferret-UI 2 - 아이폰, 안드로이드를 자동으로 움직이는 모델

Ferret-UI 2

개요

애플이 개발한 'Ferret-UI 2'는 다양한 플랫폼에서 사용자 인터페이스 (UI) 이해를 목표로 한 멀티모달 대형 언어 모델 (MLLM)이다. 이 모델은 iPhone, Android, iPad, 웹페이지, AppleTV 등 여러 플랫폼에서 범용적으로 적용될 수 있으며, 기존의 Ferret-UI 모델을 기반으로 여러 혁신적인 기능을 추가하였다. 이러한 기능들은 다양한 플랫폼 생태계에 적응할 수 있게 하며, 사용자 중심의 복잡한 상호작용을 가능하게 한다.

성능 및 특징

  1. 우수한 성능:

    • UI 요소 인식 테스트에서 89.73점을 기록

    • GPT-4o(77.73점)보다 현저히 높은 성능 달성

    • Llama-3 언어 모델이 최고 성능을 보임

    • 소형 모델 Gemma-2B도 우수한 성능 입증

  2. 플랫폼 간 전이 능력:

    • 아이폰 데이터로 훈련된 모델이 다른 플랫폼에서도 높은 성능 발휘

    • 아이패드: 68% 정확도

    • 안드로이드: 71% 정확도

    • TV, 웹 인터페이스: 상대적으로 낮은 성능

주요 혁신

  1. 멀티 플랫폼 지원: iPhone, Android, iPad, 웹페이지, AppleTV와 같은 다양한 플랫폼을 지원

  2. 적응형 아키텍처:

    • 각 플랫폼별 이미지 해상도 자동 조정

    • 플랫폼별 처리 요구사항 자동 최적화

    • "any resolution" 기능 통한 유연한 화면 비율 처리.

      • "Any Resolution" 기능

      • 목적: UI 화면의 다양한 해상도와 비율을 처리하기 위한 기술

      • 작동방식:

        • 화면을 원본 비율에 따라 서브 이미지로 분할

        • 세로 화면은 수평으로 분할

        • 가로 화면은 수직으로 분할

        • 분할된 이미지들을 각각 인코딩하여 하나로 통합

      • 주요 이점: 다양한 디바이스의 화면 크기와 해상도에 관계없이 UI 요소들을 정확하게 인식 가능

  3. 고급 상호작용:

    • 클릭 좌표 대신 명령어 기반 버튼 식별

    • 기존의 좌표값 클릭 대신 자연어 명령을 통해 버튼을 식별하고 상호 작용이 가능함. (일존의 의미 기반)

    • 사용자 의도 정확한 이해 및 실행

  4. 고급 작업 훈련 데이터 생성:

    • GPT-4o의 Set-of-Mark 비주얼 프롬프팅 활용

    • 정교한 훈련 데이터 생성 능력

미래 전망

  1. CAMPHOR 프레임워크 통합:

    • 애플의 새로운 CAMPHOR 프레임워크와 결합

    • 음성 비서의 복잡한 작업 수행 능력 향상 예정

  2. 산업 동향:

    • 여러 기업들의 UI 이해 AI 시스템 개발 진행

    • 마이크로소프트도 OmniParser 오픈소스 도구 출시

결론

Ferret-UI 2는 다양한 플랫폼에서 범용적으로 적용할 수 있는 사용자 인터페이스 이해 모델로, 혁신적인 기능과 우수한 성능을 통해 UI 디자인과 사용자 경험의 새로운 지평을 열 것으로 기대된다.

이번 연구로 애플이 아이폰을 자동 조종하는 것을 의미있게 연구하고 있는 걸을 알 수 있다.

참고로 페럿은 흰족제비라는 동물을 의미한다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 344
heart
T
페이지 기반 대답
AI Chat