애플의 Ferret-UI 2 - 아이폰, 안드로이드를 자동으로 움직이는 모델
Ferret-UI 2
개요
애플이 개발한 'Ferret-UI 2'는 다양한 플랫폼에서 사용자 인터페이스 (UI) 이해를 목표로 한 멀티모달 대형 언어 모델 (MLLM)이다. 이 모델은 iPhone, Android, iPad, 웹페이지, AppleTV 등 여러 플랫폼에서 범용적으로 적용될 수 있으며, 기존의 Ferret-UI 모델을 기반으로 여러 혁신적인 기능을 추가하였다. 이러한 기능들은 다양한 플랫폼 생태계에 적응할 수 있게 하며, 사용자 중심의 복잡한 상호작용을 가능하게 한다.
성능 및 특징
우수한 성능:
UI 요소 인식 테스트에서 89.73점을 기록
GPT-4o(77.73점)보다 현저히 높은 성능 달성
Llama-3 언어 모델이 최고 성능을 보임
소형 모델 Gemma-2B도 우수한 성능 입증
플랫폼 간 전이 능력:
아이폰 데이터로 훈련된 모델이 다른 플랫폼에서도 높은 성능 발휘
아이패드: 68% 정확도
안드로이드: 71% 정확도
TV, 웹 인터페이스: 상대적으로 낮은 성능
주요 혁신
멀티 플랫폼 지원: iPhone, Android, iPad, 웹페이지, AppleTV와 같은 다양한 플랫폼을 지원
적응형 아키텍처:
각 플랫폼별 이미지 해상도 자동 조정
플랫폼별 처리 요구사항 자동 최적화
"any resolution" 기능 통한 유연한 화면 비율 처리.
"Any Resolution" 기능
목적: UI 화면의 다양한 해상도와 비율을 처리하기 위한 기술
작동방식:
화면을 원본 비율에 따라 서브 이미지로 분할
세로 화면은 수평으로 분할
가로 화면은 수직으로 분할
분할된 이미지들을 각각 인코딩하여 하나로 통합
주요 이점: 다양한 디바이스의 화면 크기와 해상도에 관계없이 UI 요소들을 정확하게 인식 가능
고급 상호작용:
클릭 좌표 대신 명령어 기반 버튼 식별
기존의 좌표값 클릭 대신 자연어 명령을 통해 버튼을 식별하고 상호 작용이 가능함. (일존의 의미 기반)
사용자 의도 정확한 이해 및 실행
고급 작업 훈련 데이터 생성:
GPT-4o의 Set-of-Mark 비주얼 프롬프팅 활용
정교한 훈련 데이터 생성 능력
미래 전망
CAMPHOR 프레임워크 통합:
애플의 새로운 CAMPHOR 프레임워크와 결합
음성 비서의 복잡한 작업 수행 능력 향상 예정
산업 동향:
여러 기업들의 UI 이해 AI 시스템 개발 진행
마이크로소프트도 OmniParser 오픈소스 도구 출시
결론
Ferret-UI 2는 다양한 플랫폼에서 범용적으로 적용할 수 있는 사용자 인터페이스 이해 모델로, 혁신적인 기능과 우수한 성능을 통해 UI 디자인과 사용자 경험의 새로운 지평을 열 것으로 기대된다.
이번 연구로 애플이 아이폰을 자동 조종하는 것을 의미있게 연구하고 있는 걸을 알 수 있다.
참고로 페럿은 흰족제비라는 동물을 의미한다.


