Smooth CLI 등장: AI 에이전트 웹탐색 토큰을 확 줄이는 방법

Smooth CLI는 “AI 에이전트가 웹을 탐색할 때 생기는 토큰 낭비”를 줄이기 위해 만들어진 CLI 기반 브라우저 도구입니다. 일반 브라우저 자동화가 페이지 전체 구조(스크린샷, 트리, 로그 등)를 한꺼번에 모델에게 들이붓는 방식이라면, Smooth CLI는 에이전트에게 필요한 정보만 정리해 전달하는 쪽에 가깝습니다. 덕분에 비용은 내려가고, 긴 작업에서 맥락이 덜 무너집니다.¹

이번 글에서는 Smooth CLI가 왜 “토큰 효율”이라는 키워드로 주목받는지, 기존 Playwright/MCP 계열 접근이 어떤 지점에서 막히는지, 그리고 agent-browser 같은 유사 흐름과 비교했을 때 Smooth CLI를 언제 선택하면 좋은지까지 한 번에 정리해볼게요.

Smooth CLI란? “AI용 브라우저”를 CLI로 만든 이유

Smooth CLI를 한 문장으로 요약하면, “AI 에이전트에 최적화된 정책과 인덱싱을 갖춘 토큰 절약형 브라우저 인터페이스”입니다.¹ 브라우저를 사람이 쓰기 좋게 만든 UI가 아니라, 에이전트가 반복 작업을 수행하기 좋게 만든 입출력 구조에 초점을 둔 거죠.

재미있는 포인트는 ‘브라우저를 CLI로 내린 것’이 단순 취향 문제가 아니라는 겁니다. 에이전트 입장에선 브라우저 조작 자체보다, 조작 결과로 돌아오는 데이터의 양과 형태가 더 중요합니다. Smooth CLI는 그 반환값을 “에이전트가 처리하기 쉬운 형태로, 그리고 가능한 짧게” 설계해 토큰을 아끼는 방향을 택했습니다.¹

문서도 접근성이 좋습니다. 전체 문서 인덱스를 한 파일로 제공해, 에이전트가 “어디를 읽어야 하는지”부터 덜 헤매게 만든 점이 눈에 띄어요(LLM용 문서 인덱스 제공).[^^1]

왜 토큰 효율이 핵심인가: 브라우저 자동화의 ‘컨텍스트 파산’ 문제

AI 에이전트가 웹에서 무언가를 하려면 보통 이런 과정을 겪습니다. 페이지 열기 → 현재 화면 이해 → 요소 찾기 → 클릭/입력 → 결과 확인. 문제는 “현재 화면 이해” 단계에서 과하게 많은 정보가 모델 컨텍스트로 들어오는 순간, 이후 추론과 작업이 급격히 불안정해진다는 겁니다.

Pulumi 블로그는 Playwright MCP 사용 경험을 예로 들며, 자동화 도중 스크린샷/접근성 트리 등의 출력이 쌓여 컨텍스트를 갉아먹는 문제를 설명합니다. 심지어 버전 변화에 따라 토큰 사용량이 크게 튀는 사례(예: 6배 증가)나, 스크린샷 한 번에 매우 큰 토큰이 소비됐다는 사용자 보고도 언급돼요.²

이게 왜 치명적이냐면, 에이전트는 보통 “브라우징 + 코드작성 + 테스트 + 수정”을 한 세션에 엮어 돌립니다. 브라우저 출력이 비대해지면, 정작 중요한 코드 맥락이 밀려나고, 에이전트는 방금 자기가 뭘 하려 했는지도 놓치기 시작합니다. 비용은 오르고 성공률은 내려가죠.

Smooth CLI가 던지는 메시지는 명확합니다. “웹 자동화에서 가장 비싼 건 클릭이 아니라, 클릭을 하기 위해 매번 페이지 전체를 설명하는 일”이라는 것.¹

CLI 기반 자동화가 유리한 순간: MCP 대신 “필요한 것만 주고받기”

Playwright 생태계에서도 비슷한 방향 전환이 이미 관측됩니다. TestDino 글에서는 Microsoft가 AI 에이전트를 염두에 둔 별도 playwright-cli를 소개하면서, MCP 방식이 매 상호작용마다 큰 덩어리(접근성 트리, 콘솔 로그, 구조 메타데이터 등)를 모델에 주입해 컨텍스트를 빠르게 소모한다고 지적합니다. 그래서 CLI 호출처럼 “외부 상태는 바깥에 두고, 모델에는 최소한만 전달하는 방식”이 토큰 효율에 유리하다는 논리로 이어지죠.³

Vercel의 agent-browser 또한 같은 흐름에서 읽힙니다. 이 도구는 스냅샷을 뽑되, 요소를 길게 설명하는 대신 참조(ref) 기반으로 상호작용하는 방식으로 컨텍스트를 줄였고, 최대 90% 이상 컨텍스트 절감 같은 수치도 소개됩니다.⁴

Smooth CLI도 결이 같습니다. 핵심은 “브라우저 상태를 모델 안으로 옮기지 않는다”는 점이에요. 모델은 화면 전체를 매번 장황하게 받기보다, 탐색 범위를 관리할 수 있는 정책/인덱싱을 기반으로 필요한 것만 확인하고 다음 액션으로 넘어가게 됩니다.¹

Smooth CLI의 차별점: “탐색 범위 관리”와 “문서 인덱싱”을 제품 철학으로

여기서 Smooth CLI가 흥미로운 건, 단순히 출력 텍스트를 줄이는 도구가 아니라 “에이전트가 웹을 헤매지 않게” 설계를 붙였다는 점입니다.

첫째, 에이전트 특화 정책이 있다는 점이 큽니다. 사람이 브라우저 탭을 여기저기 열어두는 건 자연스럽지만, 에이전트에게 그건 ‘미로 생성기’가 되기 쉽습니다. Smooth CLI는 이런 탐색 범위(무엇을 읽고 무엇을 무시할지)를 관리하기 쉽게 만들어, 불필요한 이동과 반복 질의를 줄여줍니다.¹

둘째, LLM이 읽기 좋은 문서 인덱스를 제공한다는 점도 실전에서 효율이 큽니다. “문서가 잘 정리되어 있다”는 건 사람이 보기 좋다는 의미가 아니라, 에이전트가 빠르게 참조하고 도구를 제대로 쓰게 만든다는 뜻이니까요.¹

셋째, CLI 환경에서 바로 실험 가능한 점이 개발자 친화적입니다. 특히 에이전트를 붙여 A/B 테스트를 하거나, 작은 워크플로를 빠르게 자동화해볼 때 GUI 도구보다 시행착오 비용이 낮습니다.¹

어떤 팀에 추천할까: 비용 절감보다 “긴 작업 안정성”이 더 절실한 곳

Smooth CLI 같은 토큰 효율형 브라우저는 “토큰 비용이 아깝다” 수준에서 끝나지 않습니다. 오히려 더 중요한 건 장시간 작업에서의 안정성이에요.

예를 들어 이런 팀에 특히 잘 맞습니다.

프론트엔드/QA 자동화에서 에이전트가 스스로 UI를 검증하고, 실패하면 원인 파악 후 재시도까지 반복해야 하는 팀입니다. 브라우저 출력이 비대하면 검증 루프가 금방 무너집니다.²

여러 사이트를 돌아다니며 수집·요약·검증을 수행하는 리서치형 에이전트(예: 경쟁사 페이지 모니터링, 가격/정책 변경 감지)를 만드는 팀입니다. 탐색 범위 관리와 토큰 효율이 곧 운영비로 직결됩니다.¹

에이전트를 로컬 개발환경/CI에서 돌리며 실험하는 팀입니다. CLI는 재현 가능성이 좋고, 실행 로그가 깔끔하게 남아 실험 설계에 유리합니다.³

시사점: “AI가 웹을 보는 방식”은 이제 브라우저가 정한다

Smooth CLI가 던지는 신호는 꽤 큽니다. 이제는 모델 성능만 올린다고 에이전트가 웹을 잘 다루지 않습니다. 오히려 브라우저 도구가 어떤 정보를 얼마나, 어떤 형태로 모델에 전달하느냐가 성공률과 비용을 좌우합니다.

개인적으로는 Smooth CLI를 “브라우저”라기보다 “AI용 웹 I/O 레이어”로 보는 게 맞다고 생각해요. 토큰을 줄이는 건 결과이고, 본질은 에이전트가 길을 잃지 않게 만드는 설계(정책, 인덱스, 범위 제어)입니다.¹

처음 도입한다면, 거창한 웹 자동화부터 시작하지 말고 ‘반복되는 확인 작업’ 하나만 골라 붙여보세요. 예를 들어 릴리스 후 특정 페이지에서 버튼이 실제로 클릭되는지, 로그인 플로우가 끝까지 진행되는지만 검사해도 효과를 바로 체감할 가능성이 큽니다. 그리고 그때 가장 먼저 확인할 지표는 “성공률”과 “세션 길이”입니다. 토큰 절감은 그다음에 자연스럽게 따라옵니다.

참고

¹Show HN: Smooth CLI – AI 에이전트를 위한 토큰 효율적인 브라우저

²Self-Verifying AI Agents: Vercel's Agent-Browser in the Ralph Wiggum Loop | Pulumi Blog

³Deep Dive into Playwright CLI: Token Efficient Browser Automation | TestDino

⁴agent-browser: Free Browser Automation CLI for AI Agents