Fara-7B: 온디바이스 웹 에이전트를 위한 초소형 모델 이해하기
핵심 요약
Fara-7B는 웹 브라우저 화면을 직접 보면서 마우스·키보드로 작업을 수행하는 70억 파라미터급 컴퓨터 사용 전용 에이전트입니다. 대형 모델 여러 개를 조합하던 기존 방식 대비 작고 빠르면서도, 실제 웹 작업 자동화에서 동급 최고 수준 성능을 보여줍니다.
Fara-7B란 무엇인가
Fara-7B는 텍스트 대화용이 아니라, 사용자를 대신해 컴퓨터를 조작하도록 설계된 '에이전트형 SLM(소형 언어 모델)'입니다.
일반 챗봇은 글만 생성하지만, Fara-7B는 웹페이지 화면을 보고 마우스 클릭, 스크롤, 키보드 입력 등을 직접 결정해 실행합니다.
파라미터 수가 70억 수준이라 상대적으로 가벼워, 데스크톱이나 Copilot+ PC 같은 개인 기기에서도 구동할 수 있도록 설계되었습니다.
사람이 웹을 쓰는 방식 그대로: 시각 기반 컴퓨터 조작
Fara-7B의 가장 큰 특징은 '사람처럼 화면을 본다'는 점입니다.
이 모델은 접근성 트리나 DOM 구조 같은 추가 정보를 사용하지 않고, 단순히 브라우저의 스크린샷과 과거 행동 이력만을 입력으로 받습니다.
이 화면을 보고 "어디를 클릭해야 할지", "어디에 텍스트를 입력해야 할지"를 좌표 단위로 예측하고, 그 결과를 Playwright 기반 도구 호출 형태로 내보내 마우스·키보드 동작으로 변환합니다.
이 덕분에 웹사이트 내부 구조에 덜 의존하고, 사람이 보는 것과 비슷한 정보만으로 다양한 사이트에 적응할 수 있습니다.
어떤 작업을 자동화할 수 있는가
Fara-7B는 여러 단계가 필요한 실제 웹 작업을 자동화하는 데 초점을 맞추고 있습니다.
예를 들어, 쇼핑몰에서 특정 게임 컨트롤러를 검색해 가장 알맞은 옵션을 고르고, 장바구니에 담은 뒤 결제 단계 직전까지 진행하는 흐름을 수행할 수 있습니다.
또한 깃허브 이슈를 찾고 요약하거나, 지도·검색 툴을 조합해 이동 시간과 주변 맛집을 찾는 등, "정보 검색 + 요약 + 의사결정 보조"까지 포함된 워크플로도 수행할 수 있습니다.
다만 여전히 복잡한 작업에서는 실수나 오해가 발생할 수 있고, 사람의 모니터링과 승인 절차가 필수라는 점이 전제로 깔려 있습니다.
성능과 효율: 작은 모델이지만 동급 최고 수준
Fara-7B는 WebVoyager, Online-Mind2Web, DeepShop 같은 표준 웹 에이전트 벤치마크에서 동급 모델 중 최고 수준 성능을 보입니다.
특히 새로 제안된 WebTailBench(영화·레스토랑 예약, 구직, 부동산 찾기, 가격 비교 등 현실적인 웹 작업 모음)에서 높은 성공률을 기록하며, 실제 생활에 가까운 시나리오에서 강점을 보여줍니다.
대형 모델 기반 에이전트(예: GPT-4o를 에이전트처럼 프롬프트한 SoM Agent)와 비교했을 때도, 성공률이 비슷하거나 더 높으면서, 토큰 사용량과 단계 수가 적어 비용·지연 측면에서 더 효율적입니다.
같은 7B 기반인 UI-TARS-1.5-7B와 비교해도 평균 행동 단계 수가 절반 이하로, "적은 행동으로 일을 끝내는" 경제적인 정책을 학습한 점이 특징입니다.
어떻게 이런 모델을 훈련했는가: 대규모 합성 웹 작업 데이터
실제 사람이 모든 브라우저 행동을 녹화·라벨링하는 방식은 너무 비싸고 느립니다.
이를 해결하기 위해, Microsoft는 Magentic-One이라는 멀티 에이전트 프레임워크 위에 합성 데이터 생성 파이프라인을 구축했습니다.
먼저 쇼핑, 여행, 레스토랑, 영화 등으로 분류된 수많은 실제 웹 URL을 바탕으로, 각 사이트에서 할 법한 구체적 과제를 LLM이 생성합니다.
그 다음, 여러 역할을 가진 에이전트(계획 세우는 Orchestrator, 브라우저를 조작하는 WebSurfer, 사용자 역할을 하는 UserSimulator 등)가 실제로 그 과제를 수행하며, 화면·생각·행동 로그 전체가 '시演(trajectory)'로 쌓입니다.
마지막으로 세 종류의 검증 에이전트가 의도 충족 여부, 평가 기준 충족 여부, 화면 증거 일치 여부를 따져 성공 사례만 걸러내 training 데이터로 사용합니다.
이 과정을 통해 약 14.5만 개의 과제와 100만 단계에 달하는 고품질 웹 상호작용 데이터를 구축했고, 여기에 UI 요소 위치 파악, 캡셔닝, 시각 질의응답 같은 보조 과제 데이터도 더해 학습에 활용했습니다.
단일 모델로 멀티 에이전트의 능력을 흡수하기
실제 시스템에서는 멀티 에이전트 구조가 복잡하고 운영 비용이 크기 때문에, 최종적으로는 단일 모델이 모든 기능을 맡는 것이 유리합니다.
Fara-7B는 Qwen2.5-VL-7B라는 멀티모달 기반 모델을 바탕으로, 위에서 만든 멀티 에이전트의 "시연 데이터"를 모사하도록 지도학습으로만 훈련되었습니다.
데이터는 "화면을 본다 → 다음 행동을 생각한다 → 도구 호출을 실행한다"라는 관찰–사고–행동 순서로 선형화되어, 모델이 한 단계씩 다음 행동을 예측하도록 합니다.
모델 출력에는 먼저 내부 추론을 담은 자연어 "생각"이 나오고, 이어서 click(x,y), type(), web_search(), visit_url() 같은 도구 호출 형식이 따라붙습니다.
강화학습 없이도 이 수준의 성능을 달성했다는 점이, 향후 온디바이스 에이전트 개발에서 "복잡한 멀티 에이전트를 교사로 삼은 소형 단일 모델" 전략의 가능성을 보여줍니다.
안전 설계: 크리티컬 포인트와 샌드박스 실행
컴퓨터를 직접 조작하는 에이전트는 실수나 악용 시 피해 범위가 크기 때문에, 안전 장치가 핵심입니다.
Fara-7B는 브라우저 화면, 사용자 지시, 행동 이력만 수집해 과제를 수행하며, 사이트 내부 구조나 불필요한 추가 데이터는 보지 않도록 설계되었습니다.
모든 행동은 로그로 남아 사용자가 언제든지 어떤 클릭·입력이 있었는지 되돌아볼 수 있고, 권장 사용 방식도 반드시 샌드박스 환경에서 실행하면서 중간중간 모니터링하는 것입니다.
특히 결제, 메일 발송, 개인정보 입력 등 되돌리기 어려운 단계는 '크리티컬 포인트'로 간주하고, 그 지점에서 반드시 사용자 확인을 요청하도록 데이터 단계부터 학습시켰습니다.
또한 해로운 작업 요청, 프롬프트 주입, 사기 사이트 유도 등 위험 시나리오에 대해 거절하도록 안전 데이터를 섞어 훈련했고, 별도의 WebTailBench-Refusals 세트와 내부 레드팀 테스트로 거절 능력을 검증했습니다.
어디서 어떻게 쓸 수 있는가
Fara-7B는 MIT 라이선스로 공개된 오픈 웨이트 모델로, Azure AI Foundry와 Hugging Face에서 다운로드해 실험할 수 있습니다.
Microsoft Research의 연구용 프론트엔드인 Magentic-UI에 통합되어 있어, 별도의 복잡한 환경을 구축하지 않고도 브라우저 상호작용 에이전트를 체험해볼 수 있습니다.
또한 Copilot+ PC용으로 양자화·NPU 최적화된 버전이 제공되어, VS Code의 AI Toolkit을 통해 모델을 내려받고 완전히 온디바이스에서 실행해 볼 수 있습니다.
이렇게 배포 문턱을 낮춤으로써, 개인 개발자와 연구자가 실제 웹 자동화 에이전트를 만들고 개선 아이디어를 시험해 보기 쉬운 환경을 만드는 것이 목표입니다.
앞으로의 방향과 활용 아이디어
현재 공개된 Fara-7B는 "지도학습만으로도 여기까지 가능하다"는 것을 보여주는 1차 버전입니다.
향후에는 더 강력한 멀티모달 기반 모델, 실제·샌드박스 환경에서의 강화학습, 장기 작업 관리 능력 등을 결합해, 더 똑똑하면서도 여전히 온디바이스에서 돌아가는 에이전트를 목표로 하고 있습니다.
사용자 입장에서는 반복적인 웹 업무(폼 작성, 조회·정리, 계정 관리, 예약·결제 전 단계 준비)를 Fara-7B 같은 모델에 맡기고, 마지막 승인과 예외 상황 처리에만 집중하는 식의 협업 방식이 자연스러운 활용 방향입니다.
인사이트
Fara-7B는 "작지만 현장에서 쓸 수 있는 웹 에이전트"가 현실화되고 있음을 보여주는 사례입니다.
핵심은 세 가지입니다. 첫째, 사람처럼 화면만 보고도 꽤 복잡한 웹 작업을 수행할 수 있다는 점, 둘째, 합성 멀티 에이전트 데이터를 잘 설계하면 소형 단일 모델이 그 능력을 상당 부분 흡수할 수 있다는 점, 셋째, 온디바이스 실행을 통해 지연·비용·프라이버시 측면에서 새로운 사용자 경험을 열 수 있다는 점입니다.
실용적으로는, 지금 단계에서 Fara-7B를 활용하려면 반드시 다음을 지키는 것이 좋습니다. 민감 정보·실결제·업무 핵심 시스템에는 바로 붙이지 말고, 샌드박스 환경에서 시뮬레이션과 로깅을 충분히 한 뒤, 사람이 마지막 단계를 승인하는 구조로 설계하세요.
그렇게 사용한다면, 반복적인 웹 작업을 자동화해서 시간을 절약하고, "에이전트에게 어떤 웹 작업을 맡기고 사람은 어떤 부분을 직접 할지"에 대한 새로운 업무 분업 방식을 탐색하는 좋은 실험 도구가 될 수 있습니다.
출처 및 참고 : Fara-7B: An Efficient Agentic Model for Computer Use - Microsoft Research
