애플의 ReALM - 스크린을 보고 이해할 수 있는 AI

ReALM: Reference Resolution As Language Modeling (참조 해결을 위한 언어 모델링)

애플에서 ReALM AI 모델에 대한 논문을 공개했습니다. https://arxiv.org/pdf/2403.20329.pdf

이 모델은 참조 해결을 통해 다양한 종류의 맥락을 이해할 수 있습니다. 이러한 맥락에는 대화의 이전 턴뿐만 아니라 사용자 화면이나 백그라운드에서 실행되는 엔티티와 같은 비대화적 엔티티에 관한 맥락도 포함합니다.

ReALM은 스크린에 있는 정보를 텍스트로 변환하여 이미지 인식 없이도 기기에서 작동할 수 있게 합니다.

애플에 따르면 ReALM이 문맥 이해 능력에서 GPT-4를 능가했으며, 더 적은 매개변수를 사용함에도 여러 데이터셋에서 더 높은 성능을 보였다고 합니다.

특히 도메인 특화된 쿼리들에서 GPT-4를 능가했는데 이는 사용자의 요청들을 바탕으로 파인튜닝되었기 때문입니다. 이 때문에 더 적은 파라미터로도 기기 내에서 효율적으로 작동할 수 있습니다.

다양한 문맥을 참조 해결을 통해 사용하지만 화면 정보 처리에 있어서는 특히 의미 있는 개선이 관찰됐습니다.

생각

아이폰에서 작동하는 AI를 준비 중인 것 같다. 시리에 연동해서 점점 손을 대지 않고 기기를 작동시킬 수 있을 것 같다. 예를 들어 화면에 치킨 집 전화번호가 있다면, "치킨 집에 전화 걸어줘" 하고 아이폰을 동작시킬 수 있을 것 같다. 사실 애플 입장에서는 구글이 스마트폰에 AI를 탑재하고 있는 입장에서 가만 있을 수 없는 입장이다. 얼마 전 애플이 DarwinAI를 인수했는데 이 스타트업이 온 디바이스 애플리케이션에 특화된 작은 AI 모델을 만드는 곳이다. 자본과 컴퓨팅 파워, 인재까지 갖춘 마당에 곧 애플이 뭔가를 보여주지 않을까 기대해 본다.