Skip to main content
Views 2

작은 모델로 모바일 의도 추출? ‘분해’가 만든 큰 결과

Summary

모바일에서 우리가 하는 행동은 생각보다 짧고 빠릅니다. 앱을 열고, 스크롤하고, 뒤로 가고, 다시 검색창을 누르는 그 몇 초 사이에 “지금 뭘 하려는지”를 정확히 알아맞히는 AI 에이전트가 있다면, 다음 행동을 미리 준비해 더 빠르게 도와줄 수 있겠죠.

문제는 의도 이해를 잘하는 모델일수록 보통 크고 비싸며, 화면 정보를 서버로 보내야 하는 경우가 많다는 점입니다. 속도는 느려지고 비용은 늘며, 민감한 화면이 오가는 순간 프라이버시 리스크도 커집니다. 그래서 최근 연구 흐름은 “작지만 강력한 모델로, 온디바이스에서 의도를 뽑아낼 수 없을까?”로 모이고 있습니다.

이번 글에서는 그 해법으로 떠오르는 ‘분해(Decomposition)’ 접근을 이야기해보겠습니다. 한 번에 정답을 맞히려 하지 말고, 화면을 먼저 잘게 요약한 뒤 그 요약들의 흐름에서 의도를 뽑는 방식입니다. 이 방법이 왜 작은 모델에 특히 유리한지, 그리고 어떻게 평가까지 설계했는지까지 쉽게 풀어볼게요.

온디바이스 의도 이해가 중요한 이유: 속도·비용·프라이버시

대형 다중모달 모델(MLLM)은 화면을 보고 “사용자가 무엇을 하려는지”를 꽤 그럴듯하게 설명합니다. 하지만 모바일 UI를 이해시키려면 화면 이미지, 접근성 트리, 사용자의 터치/입력 로그 같은 정보가 필요하고, 이걸 서버로 보내는 구조가 흔합니다.

이때 생기는 현실적인 문제가 세 가지입니다. 첫째, 네트워크 왕복 시간 때문에 반응이 늦어집니다. 둘째, 매 요청마다 대형 모델을 호출하니 비용이 커집니다. 셋째, 메시지·결제·건강 정보처럼 민감한 화면이 전송될 수 있어 정보 유출 우려가 생깁니다.

결국 “기기 안에서 바로, 가볍게, 꽤 정확하게” 의도를 뽑아내는 기술이 필요해졌고, 그래서 작은 모델(SLM, Small Language Model) 또는 소형 MLLM이 주목받습니다.

‘한 방에 맞히기’가 어려운 이유: UI 의도는 맥락 게임

사용자 의도 추출이 어려운 이유는, 한 화면만 봐서는 진짜 목적이 잘 안 보이기 때문입니다.

예를 들어 쇼핑앱에서 장바구니 화면을 보고 있으면 “결제하려나?”라고 추측하기 쉽지만, 바로 직전 화면이 ‘배송지 변경’이었다면 의도는 결제보다 주소 수정일 수 있습니다. 또 다음 화면에서 결제수단 선택으로 넘어갔다면 ‘결제 진행’이 더 확실해지죠.

즉 UI 의도는 단일 스냅샷이 아니라 ‘연속된 조작의 흐름’을 읽는 문제입니다. 그래서 연구자들은 의도 이해를 한 번의 거대한 추론으로 끝내기보다, 단계적으로 나눠서(분해해서) 처리하는 쪽으로 방향을 튼 겁니다.

2단계 분해 접근: 화면 요약 → 요약 흐름에서 의도 한 문장

핵심 아이디어는 간단합니다. “화면을 잘 읽는 일”과 “의도를 말로 정리하는 일”을 분리합니다.

첫 번째 단계에서는 각 상호작용 화면을 따로 요약합니다. 흥미로운 포인트는 화면을 하나만 보지 않고, 이전/현재/다음 화면 3개를 기준으로 요약을 만든다는 점입니다. 이렇게 하면 ‘이 화면이 어떤 맥락에서 등장했는지’가 요약에 자연스럽게 포함됩니다. 요약에는 화면에서 중요한 요소(컨텍스트), 사용자가 실제로 한 행동, 그리고 “사용자가 다음에 무엇을 하려는 걸까?” 같은 형태의 의도 추측 질문까지 함께 담습니다.

두 번째 단계에서는 화면별 요약들이 시간 순서대로 쌓여 있는 것을 보고, 최종 의도를 ‘단 한 문장’으로 뽑아냅니다. 여기서 중요한 건 거창한 문학적 설명이 아니라, 에이전트가 다음 행동을 준비할 수 있을 만큼 정확하고 간결한 의도 문장입니다. 이 과정은 미세 조정된 작은 모델이 담당하며, 자동화된 데이터셋으로 “좋은 의도 문장”의 예시를 충분히 학습시키는 방향을 택합니다.

결과적으로 작은 모델은 무리하게 거대한 추론을 하지 않고도, 잘 정리된 요약을 재료로 삼아 높은 품질의 의도 문장을 만들 수 있게 됩니다.

작은 모델이 강해지는 이유: ‘토큰 절약’이 아니라 ‘인지 부하 절약’

사람도 마찬가지지만, 복잡한 일을 한 번에 시키면 실수합니다. “지금 이 앱에서 사용자가 뭘 하려는지 맞혀봐”라고 던지면, 화면의 잡음(버튼, 배너, 추천상품, 공지 등)에 휩쓸리기 쉽습니다.

분해 방식은 모델의 인지 부하를 줄여줍니다. 1단계 요약이 UI의 핵심만 압축해주니, 2단계 모델은 “핵심 이벤트의 흐름”만 보고 판단하면 됩니다. 그래서 모델 크기 자체가 작아도 꽤 좋은 결과가 나옵니다.

연구 결과에서는 Gemini 1.5 Flash 8B 같은 비교적 작은 모델이 더 큰 Gemini 1.5 Pro에 가까운 성능을 내면서 비용과 속도 부담을 줄일 수 있음을 보여줍니다. 동시에 체인 오브 띵킹(CoT) 프롬프트로 길게 추론시키거나, 처음부터 끝까지 한 번에 미세 조정하는 종단 간(E2E) 방식보다 성능이 더 잘 나오는 경향도 관찰됩니다.

평가도 ‘분해’한다: Bi-Fact로 의도를 원자적 사실로 채점

의도 문장을 평가할 때 흔히 쓰는 방식은 텍스트 유사도처럼 “얼마나 비슷한 문장을 썼나”를 보는 겁니다. 그런데 의도는 같은 뜻을 여러 표현으로 말할 수 있어서, 문장 유사도가 낮아도 정답인 경우가 많습니다.

그래서 이 연구는 평가까지 분해합니다. 의도 문장을 작은 단위의 ‘원자적 사실(atomic facts)’로 쪼개고, 모델이 그 사실들을 얼마나 정확히 포함했는지로 정확도와 재현율을 계산하는 Bi-Fact 접근을 씁니다. 예를 들어 “사용자가 배송지 변경 후 결제를 진행하려 한다”라는 의도라면, ‘배송지 변경’과 ‘결제 진행’ 같은 구성요소를 따로 보며 빠뜨렸는지/엉뚱한 사실을 넣었는지 평가할 수 있는 식입니다.

이 방식은 “말을 예쁘게 했냐”보다 “의도에 필요한 핵심을 맞췄냐”를 더 잘 측정해, 실제 제품 적용에 가까운 평가로 볼 수 있습니다.

UI 이해의 다음 단계: ‘행동을 유도하는 디자인’까지 읽는 모델

한편 UI를 이해한다는 건 단지 화면 요소를 읽는 것을 넘어, “이 디자인이 사람을 어떤 행동으로 밀어 넣는가”까지 포함합니다. 실제로 UI/UX A/B 테스트 기반 벤치마크인 WiserUI-Bench 연구는, MLLM들이 행동 유도 관점에서 UI를 해석하는 능력이 아직 제한적이라고 지적합니다1. 즉, 화면을 ‘설명’하는 것과 사용자의 ‘행동’을 예측·설명하는 것은 난이도가 다르다는 뜻이죠.

이번 분해 기반 의도 추출은 그 간극을 좁히는 실용적인 방향처럼 보입니다. 행동을 직접 예언하기 어려우면, 최소한 연속된 상호작용에서 사용자의 목표를 안정적으로 요약하고, 그 목표를 기반으로 다음 행동을 보조하는 단계부터 탄탄히 쌓아가는 전략이니까요.

시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...

작은 모델로 의도 이해를 하려면 “모델을 키우기”보다 “문제를 쪼개기”가 먼저일 수 있습니다. 화면을 단계적으로 요약하고, 그 요약의 흐름에서 의도를 한 문장으로 뽑는 방식은 속도·비용·프라이버시라는 모바일의 현실 제약과 잘 맞습니다.

제품 관점에서 보면 적용 포인트도 명확합니다. 먼저 사용자 여정을 화면 단위로 잘 기록하고(스크린+행동 로그), 요약 단계를 안정화한 뒤, 마지막 의도 문장 생성만 소형 모델로 붙이면 됩니다. 그리고 평가는 문장 유사도 대신 “의도에 필요한 원자적 사실을 얼마나 맞췄는가”로 바꾸면, 개선 방향이 훨씬 또렷해집니다.

모바일 성능이 좋아지고 소형 모델 품질이 계속 오르는 지금, 온디바이스(intent understanding)는 알림 추천, 다음 행동 예측, 자동 입력, 접근성 보조 같은 기능의 ‘바닥 기술’이 될 가능성이 큽니다. 큰 모델이 모든 걸 해결해주길 기다리기보다, 분해로 작은 모델을 강하게 만드는 설계가 앞으로 더 자주 등장할 겁니다.

참고

1Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding

작은 모델로 모바일 의도 추출? ‘분해’가 만든 큰 결과

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.