Smol2Operator: 컴퓨터 사용을 위한 교육 후 GUI 에이전트

  • "Smol2Operator"는 경량 비전-언어 모델을 사용해 GUI를 자동화하고 상호작용할 수 있는 에이전트로 발전시키는 방법을 제시합니다.

  • 본 연구는 다양한 데이터세트를 통합하여 일관된 액션 스페이스를 구축하고, 이를 통해 모델이 효과적으로 GUI 작업을 수행할 수 있도록 합니다.

  • SmolVLM2-2.2B-Instruct 모델이 기반이 되어, 훈련을 통해 초기에는 GUI 작업에 대한 능력이 없던 모델이 인식 기능을 갖추게 되었습니다.

  • Phase 1에서는 GUI 화면의 시각적 요소를 이해하고 로케이션을 파악할 수 있는 기본적인 인식 능력을 부여합니다. 이 과정에서 1152px의 이미지 크기와 정규화된 좌표 시스템이 가장 효과적인 것으로 나타났습니다.

  • Phase 2에서는 모델의 인식 능력을 넘어서 고급 논리 추론 및 복합적 상호작용을 수행하는 능력을 강화합니다. 이를 통해 스크린스팟-V2 벤치마크에서 41%에서 61%로 성능 개선이 이루어졌습니다.

  • 모든 훈련 코드, 데이터 처리 파이프라인, 데이터셋 및 모델은 오픈 소스로 공개되며, 연구자는 이를 활용해 직접 결과를 재현하거나 다양한 실험을 수행할 수 있습니다.

  • 앞으로는 강화 학습(RL) 또는 직접 선호 최적화(DPO)를 통한 실시간 학습 및 적응 기능을 갖춘 GUI 에이전트의 발전 가능성이 열려 있습니다.

  • 이 연구는 GUI 기반 AI 에이전트의 미래를 열어가는 데 중요한 기여를 할 것입니다.


3huggingface.co링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약 한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기