메인 콘텐츠로 건너뛰기
page thumbnail

Gemini 3와 Gemini CLI로 AI 직원 만들기, 어디까지 자동화할 수 있을까?

DODOSEE
DODOSEE
조회수 173
요약

클립으로 정리됨 (생성형 AI 활용)

출처 및 참고 : https://www.youtube.com/watch?v=hj0nTLbhIEY

Gemini3와 Gemini CLI, 그리고 구글의 에이전트 개발 키트(ADK)를 활용하면 혼자서도 웹사이트 제작, 시장 조사, 이메일 답장, 교육용 영상 제작까지 상당 부분 자동화할 수 있습니다. 실제 유튜브 채널을 운영하는 개발자와 구글 개발팀이 어떻게 이 도구들을 써서 'AI 직원'을 만들고, 실전 비즈니스와 콘텐츠 제작에 적용하고 있는지 구체적인 사례가 공개되었습니다.

이 글에서는 그 대화를 바탕으로,

  • Gemini 3 Pro의 특징과 활용 포인트

  • Google AI Studio로 포트폴리오 웹사이트를 만드는 흐름

  • Gemini CLI로 '시장 조사 전담 AI 직원'을 만드는 방법

  • ADK로 교육용 캐릭터 영상 에이전트를 설계하는 과정

  • 이 모든 자동화의 현실적인 효과와 한계

까지 한 번에 정리해봅니다.


Gemini 3 Pro, 에이전트 개발에 적합한 이유

대화에 참여한 개발자들은 새로 공개된 Gemini 3 Pro를 실제로 사용해 본 소감을 꽤 구체적으로 이야기합니다. 공통된 평가 포인트는 세 가지입니다.

첫째, 고급 수준의 추론 능력입니다. 단순 코드 자동완성이나 Q&A 수준을 넘어, 대학 상위 학년 수준의 수학, 컴퓨터공학, 전기공학 문제까지 상당히 안정적으로 처리할 수 있다고 언급합니다. "가장 똑똑한 모델"이라는 설명이 과장인지 확인하려고 일부러 이런 고난도 문제들까지 던져봤는데, 기대 이상으로 잘 해결했다는 이야기입니다.

둘째, 복잡한 작업을 끝까지 수행하는 능력입니다. 단일 질문에 답하는 것이 아니라, 여러 단계를 거치는 작업을 차근차근 진행하고, 그 과정에서 추론과 실행을 반복하는 식의 에이전트형 작업이 특히 강점으로 언급됩니다. 이런 특성 덕분에, Gemini 3 Pro는 단순 챗봇이 아니라 AI 에이전트의 두뇌 역할로 쓰기 적합합니다.

셋째, 속도와 안정성입니다. 공개 직후라 많은 사용자가 테스트하는 상황에서도 응답이 빠르고, 대용량 데이터를 입력해도 처리 속도가 크게 떨어지지 않는다고 합니다. 반복적으로 시도하고 수정하는 '개발-실험' 사이클이 빠른 개발자에게는 응답 속도가 생산성을 좌우하는데, 이 부분에서 만족도가 높습니다.

결과적으로, 고급 추론, 복잡 작업 처리, 속도 세 가지가 결합되면서 "AI 에이전트를 실제 제품 수준으로 구현하기 좋은 기본 모델"이라는 평가로 정리됩니다.


Google AI Studio로 포트폴리오 웹사이트 뽑아내기

구글 개발자는 Google AI Studio에서 Gemini 3 Pro를 활용해 개인 포트폴리오 웹사이트를 만드는 과정을 직접 시연했습니다. 흐름은 매우 단순하지만, 실제로 따라 하면 개발 경험이 많지 않아도 사이트 하나쯤은 뽑아낼 수 있는 구조입니다.

먼저, 본인의 LinkedIn 프로필을 PDF로 내보내기 해서 AI Studio에 업로드합니다. 여기에 프로필 사진, 그리고 나노바나나(Nano Banana)로 만든 웹사이트 디자인 레퍼런스 이미지까지 함께 올립니다. 이 세 가지가 핵심 입력입니다.

그 다음, 모델에 다음과 같은 요청을 전달합니다.

  • PDF 안의 이력 정보를 기반으로 포트폴리오 사이트를 구성할 것

  • inspo.png 이미지를 참고해 전체 디자인 스타일을 맞출 것

  • 제공한 프로필 사진을 페이지에 포함할 것

이렇게 지시하고 잠시 기다리면, 3분 이내에 완성된 웹페이지 초안이 생성됩니다. 경험상, 경력, 이메일, 발표 경험, 머신러닝 관련 활동 등 LinkedIn에 있는 핵심 정보가 웹사이트 섹션으로 잘 정리되어 반영됩니다.

물론 결과가 항상 완벽한 것은 아닙니다. 예시에서는 이미지 경로가 잘못 들어가는 문제가 있었는데, 여기서 유용하게 쓰인 기능이 AI Studio의 "주석(Annotation)" 기능입니다. 잘못된 부분만 하이라이트해서 "이 이미지 섹션을 수정해 실제 프로필 사진으로 교체해 달라"는 식으로 지시하면, 해당 구간만 수정되고 나머지 코드는 유지됩니다.

마지막 단계는 배포입니다. 생성된 코드를 바로 Cloud Run으로 배포할 수 있으며,

  • 구글 클라우드에 대한 사전 지식이 없어도

  • Cloud Run을 잘 몰라도

버튼 한 번으로 배포가 가능합니다. 몇 분 후면 URL이 나오고, 실제로 인터넷에서 접속 가능한 개인 사이트가 되는 구조입니다.

이 조합만으로도, "코딩은 거의 안 해봤지만 자기소개 사이트 하나 갖고 싶다"는 사람도 AI 도움으로 실제 웹서비스를 올리는 수준까지 갈 수 있습니다.


Gemini CLI로 '시장 조사 전담 AI 직원' 만드는 개념

유튜브 'AI with Brandon' 채널 운영자는 Gemini 3와 Gemini CLI를 활용해 여러 가지 AI 직원(AI employees)을 만드는 실험을 하고 있습니다. 그중 한 사례가 미국 전역의 응급의료기관 시장 조사 에이전트입니다.

이들이 운영 중인 스타트업은 구급차·소방서 등 응급의료서비스(EMS)의 SOAP 리포트 작성을 돕는 제품을 만들고 있습니다. 고객군('고객 아바타')은 명확하지만, 미국 전역에 흩어져 있어 모든 잠재 고객을 수작업으로 찾는 것은 사실상 불가능합니다.

여기서 Gemini CLI가 활용됩니다. 핵심 아이디어는 다음과 같습니다.

  • AI를 "직원"처럼 정의하고, 할 일을 문서화한다.

  • 이 문서를 기반으로 Gemini CLI가 Google 검색 도구 등을 활용해 대규모 리서치를 수행한다.

  • 고급 추론이 필요한 부분에는 Gemini 3 Pro를, 반복 작업·대량 처리에는 Gemini 2.5 Flash 같은 빠르고 저렴한 모델을 사용해 역할을 분리한다.

  • 이 모든 설정과 지시는 마크다운 파일(SOP 문서)로 관리한다.

Gemini CLI는 기본적으로 무료 티어에서 하루 약 1,000 요청을 사용할 수 있어, 초기에 실험해 보기 좋은 환경입니다. 이를 기반으로 "시장 조사 담당 AI 직원", "이메일 응답 담당 AI 직원" 등 다양한 역할을 가진 에이전트를 계속 추가해 나가는 방식을 추천합니다.

브랜던은 실제로 매주 새로운 AI 직원을 하나씩 만들어 보라고 권유합니다. 연말쯤이면, 여러 개의 전담 업무 에이전트들이 동시에 돌아가는 개인 규모의 'AI 조직'을 갖게 된다는 발상입니다.


SOP 문서로 AI 직원의 역할과 출력 정의하기

이 'AI 직원' 개념에서 가장 중요한 것은 표준 운영 절차(Standard Operating Procedure, SOP)를 잘 정의하는 일입니다. 이 SOP가 바로 에이전트의 설명서이자 업무 매뉴얼 역할을 합니다.

SOP 문서에는 보통 이런 내용이 들어갑니다.

  • 어떤 입력을 받는지

  • 어떤 질문을 인터넷에서 찾아야 하는지

  • 최종적으로 어떤 목표를 달성해야 하는지

  • 결과를 어떤 형식의 출력으로 정리해야 하는지

예를 들면, "특정 도시의 응급의료기관 목록을 찾고, 규모·연락처·웹사이트·지역 특성을 정리해라" 같은 지시를 자세히 적어둡니다. 여기서 Gemini 3 Pro는 이 SOP를 정교하게 다듬는 데 투입됩니다. 모델에 "이 업무를 사람이 대신할 수 있을 정도로 구체적으로 문서화해 달라"라고 하면, 상당히 구조화된 지침서를 생성해 줍니다.

그 다음, 실제 작업 단계에서는 Gemini 2.5 Flash 같은 모델이 '실무 담당' 역할을 합니다. 이 모델은 가격이 저렴하고 속도가 빨라, SOP에 적힌 내용을 그대로 실행하는 용도로 적합합니다.

이렇게 "머리 역할(고급 추론)"과 "손 역할(반복 작업)"을 분리해 모델을 쓰면, 비용과 속도를 모두 고려하면서 규모 있는 자동화를 구성할 수 있습니다.


파이썬 스크립트와 병렬 실행으로 미국 전역을 동시에 탐색하기

이제 SOP까지 준비되면, 실제 시장 조사를 여러 도시를 한 번에 병렬로 처리하는 단계로 넘어갑니다. 여기서 중요한 도구가 파이썬 스크립트와 Gemini CLI의 연계입니다.

구성이 대략 다음과 같이 움직입니다.

  1. 리서치해야 할 도시 목록을 정리합니다.

  2. Gemini에게 "리서치 SOP를 이 도시 목록에 적용해 달라"고 지시합니다.

  3. 내부적으로는 파이썬 스크립트가 호출되어, 도시별로 별도의 Gemini 호출을 병렬로 실행합니다.

  4. 각 호출은 해당 도시에 대한 검색을 수행하고, 결과를 파일 혹은 데이터베이스 형태로 저장합니다.

브랜던은 여기에 대해 "편집기에서 한 번 프롬프트를 넣는 것만으로, 백그라운드에서 수백 개의 에이전트를 동시에 띄우는 치트키"라고 표현합니다. 개발자는 일일이 스레드나 비동기 작업을 관리할 필요 없이, 프롬프트 + 최소한의 스크립트로 병렬 에이전트 시스템을 구축할 수 있습니다.

질문이 나왔던 부분은 "이 파이썬 스크립트도 직접 작성한 것인가?"였습니다. 이에 대한 답은 명확합니다. 대부분의 코드는 Gemini가 작성합니다. 개발자는 "도시 리스트를 받아 SOP 프롬프트를 반복 실행하고, 결과를 파일로 저장하는 스크립트가 필요하다"는 식으로 요구사항을 설명하고, Gemini가 짠 코드를 검토·수정하는 방식입니다.

또 한 가지 인상적인 점은, Gemini가 툴 사용법을 별도 설명하지 않아도 코드만 보고 사용법을 추론한다는 점입니다.

  • 코드를 건네주면, 인자와 반환값, 사용 흐름을 스스로 분석하고

  • 가끔 잘못 실행해 오류가 나도, 에러 메시지를 읽고 다음 시도에서 수정합니다.

결과적으로, 개발자는 로직 설계와 검토에 집중하고, 세부 구현과 반복 시도는 AI가 처리하는 구조가 됩니다.


이메일·리포트까지 대신 쓰는 AI 고스트라이터

시장 조사 외에도, 브랜던은 Gemini CLI를 활용해 여러 종류의 반복 업무를 AI에게 넘기고 있습니다.

대표적인 것이 이메일 고스트라이터입니다.

  • Gemini CLI를 Gmail과 MCP 서버로 연결하고

  • "브랜던의 고스트라이터"라는 컨텍스트를 설정해, 평소 글쓰기 스타일과 어투를 학습시킨 뒤

  • "최근 받은 이메일 3개를 가져와서 내 스타일대로 초안을 작성해 달라"라고 지시합니다.

이렇게 하면, AI가 초안을 모두 작성하고, 본인은 발송 전에 검토·수정만 하면 됩니다. "모든 이메일을 AI가 보낸다" 수준은 아니고, 항상 사람이 최종 검토하는 '휴먼 인 더 루프' 구조를 지키고 있습니다.

또 다른 활용 예는 월간 상태 보고서 작성입니다.

  • 매달 반복되는 정기 보고서를 직접 쓰는 대신

  • 관련 자료와 이전 보고서들을 AI 직원용 디렉터리에 넣어두고

  • "지난달과 이번달 활동을 기반으로 최신 월간 리포트를 작성해 달라"고 요청합니다.

브랜던의 기준은 단순합니다. "두 번 이상 반복하는 일은 AI 직원에게 넘긴다." 이 원칙을 지키려면, 매번 할 일을 간단히 기록해 두고, 다음번에는 그 기록을 SOP로 승격해 AI가 대신 수행하도록 넘겨주는 습관이 중요합니다.


ADK와 비디오 모델로 교육용 캐릭터 영상 만드는 구조

대화 후반부에서는 구글의 Agent Development Kit(ADK)를 활용해 교육용 AI 에이전트를 만든 사례가 소개됩니다. 이 에이전트의 목적은 개발자 문서를 읽고, 이를 해설해주는 교육용 영상을 자동으로 생성하는 것입니다.

여기서 특징적인 점은 두 가지입니다.

첫째, 입력이 단순 스크립트가 아니라 개발 문서 페이지입니다.

  • 코드 블록

  • 불릿 포인트

  • 번호 목록

등이 섞여 있는 문서를, 시청자가 듣기 좋은 이야기체로 바꾸는 과정이 포함됩니다.

둘째, 영상의 진행자 역할을 하는 캐릭터(카피바라)가 등장합니다.

  • Nano Banana로 4개의 서로 다른 뷰(각도)의 카피바라 이미지를 생성해 두고

  • 각 영상 조각마다 랜덤으로 하나의 뷰를 선택해 단조로운 '고정된 얼굴' 영상이 되지 않도록 구성합니다.

이 에이전트는 ADK에서 여러 서브 에이전트로 구성된 구조를 가집니다.

  • 상위에는 전체 흐름을 관리하는 오케스트레이터 에이전트가 있고

  • 그 아래에 스크립트 시퀀서 에이전트, 비디오 생성 에이전트 등이 역할을 분담합니다.


스크립트 시퀀서: 8초 단위로 끊어 읽게 설계하기

영상 제작에서 중요한 축을 담당하는 것이 스크립트 시퀀서(script sequencer)입니다. 이 서브 에이전트는 두 가지 핵심 역할을 맡습니다.

첫째, 문서를 자연스러운 구어체 스크립트로 변환합니다. 개발자 문서는 원래 발표용이 아니라 참고용으로 작성된 글이라, 그대로 읽으면 딱딱하고 불릿 포인트를 그대로 나열하는 식이 되기 쉽습니다. 스크립트 시퀀서는 이를 카피바라 캐릭터가 자연스럽게 설명하는 말투로 바꾸도록 설계됩니다. 중요한 것은, "불릿 포인트를 그대로 읽지 말 것" 같은 지침을 명확히 넣는 것입니다.

둘째, 변환된 스크립트를 약 8초 단위로 분할합니다. 현재 비디오 생성 모델은 길게 한 번에 뽑기보다는, 짧은 클립 여러 개를 이어 붙이는 방식이 안정적입니다. 따라서

  • 한 문장 또는 짧은 묶음이 약 8초 정도에 맞도록 나누고

  • 각 조각마다 사용할 카피바라 뷰 번호를 함께 기록합니다.

스크립트 시퀀서는 이렇게 조각난 스크립트와 뷰 정보를 다시 오케스트레이터에게 넘기고, 오케스트레이터는 이를 기반으로 비디오 생성 에이전트를 호출합니다. 이 구조 덕분에, 영상 전체를 길게 한 번에 생성하지 않아도 각 조각은 자연스럽게 이어지면서도, 카메라 뷰는 다양하게 바뀌는 결과를 얻을 수 있습니다.


캐릭터·환경 일관성을 위한 프롬프트 설계와 후편집

영상 모델은 기본적으로 이전 클립의 맥락을 기억하지 못하는 경우가 많기 때문에, 캐릭터와 배경의 일관성을 유지하려면 프롬프트 설계가 매우 중요합니다. 이 사례에서는 다음과 같은 전략을 사용합니다.

  • 카피바라 캐릭터의 외형(옷, 표정, 색감, 체형)을 상세하게 텍스트로 정의합니다.

  • 목소리 톤, 말하는 스타일도 함께 적어, 각 클립에서 동일한 인상을 유지하도록 합니다.

  • 4개의 뷰 이미지는 클립 생성 시 스타트 프레임으로 사용하고, 프롬프트로도 각 뷰의 특징을 명시합니다.

이렇게 해 두어야, 예를 들어

  • 2번 뷰로 시작하는 영상에서 카메라가 조금 줌아웃되더라도

  • 4번 뷰 영상과 옷차림과 배경 스타일이 크게 달라지지 않습니다.

비디오 생성 과정에서는 총 92개의 8초 클립이 생성되었습니다. 모든 자동화가 그렇듯 결과물이 완벽하지 않기 때문에, 제작자는 직접 92개를 모두 시청하고 검수합니다.

  • 특정 번호(예: 49번 클립)에 글리치가 있거나

  • 동작이나 표정이 어색하다면

해당 번호만 다시 생성하거나, 다른 뷰 번호를 사용해 재생성합니다. 이렇게 골라낸 최종 클립 목록을 모아 Gemini CLI를 통해 ffmpeg를 호출하여 하나의 영상으로 합칩니다. "이 URL 목록을 이 순서대로 합쳐 달라"는 요청만으로, 실제 ffmpeg 명령까지 AI가 구성해 실행합니다.

최종 결과물은 약 11분 분량의 교육 영상이며, 예시로 AI 에이전트의 안전·보안 주제를 카피바라 캐릭터가 설명하는 영상이 소개되었습니다. 패턴이 익숙한 개발자라면, 같은 구조를 다른 주제의 문서에도 그대로 재사용할 수 있습니다.


Anti-gravity IDE와 ADK로 에이전트 구조 유지·개선하기

이 교육용 에이전트는 처음에는 Gemini CLI만으로 만들어졌고, 이후에 새로 공개된 Anti-gravity IDE를 활용해 구조를 개선했습니다. 개발자는 기존 에이전트 코드를 Anti-gravity에서 열어놓고, 다음과 같은 수정 요청을 합니다.

  • 스크립트 변환 로직을 별도의 에이전트로 분리

  • 프롬프트를 정리하고, 오래된 프롬프트는 제거

  • 인간 검토 단계(스크립트 수정 시간)를 중간에 삽입

Anti-gravity는 이런 요구를 바탕으로 ADK 기반 에이전트 구조를 재작성합니다. 오케스트레이터의 프롬프트, 서브 에이전트 정의, 호출 순서를 모두 업데이트하고, 사람이 개입해야 하는 지점에 대기 로직을 추가합니다.

개발자는 "CLI보다 IDE 환경을 선호하는데, Anti-gravity 덕분에 에이전트 개발 생산성이 크게 올라갔다"고 평가합니다. 결국

  • 로우레벨 설정과 프롬프트 조합은 AI가

  • 구조 설계와 결과 검토는 사람이

담당하는 역할 분담이 다시 한 번 반복됩니다.


Gemini 3와 AI 에이전트 자동화, 효과와 한계를 현실적으로 보기

지금까지 나온 사례들을 관통하는 키워드는 "Automate everything with Gemini", 즉 가능한 모든 반복 작업을 Gemini 기반 에이전트로 넘기려는 시도입니다. 실제로 다음과 같은 효과는 분명히 있습니다.

  • 개인 웹사이트 제작 수준이라면, 기획·디자인·코딩·배포를 한 사람이 전부 하지 않아도 됩니다.

  • 시장 조사·고객 리스트 구축 같은 데이터 수집 업무를 병렬 에이전트로 돌려, 며칠 걸리던 일을 짧은 시간에 끝낼 수 있습니다.

  • 이메일 답장·월간 리포트처럼 패턴이 분명한 문서는 고스트라이터 에이전트가 초안을 대부분 처리해 줍니다.

  • 교육용 영상 제작에서 스크립트 변환, 분할, 캐릭터 설정, 클립 생성, 영상 합치기까지 상당 부분 자동화가 가능합니다.

하지만, 대화 속에서도 반복해서 강조되는 한계와 주의점도 있습니다.

  • 웹사이트 코드, 리포트, 영상 등 모든 결과물은 사람이 검토하고 수정합니다. "AI가 다 해주니 그냥 내보낸다"는 식의 자동 출시는 언급되지 않습니다.

  • 비디오 모델은 여전히 글리치, 어색한 움직임, 말과 입 모양 불일치 같은 문제가 남아 있어, 92개 클립 전수 검수처럼 사람의 품질 관리가 필수입니다.

  • 에이전트가 강력해질수록, 보안·안전·브랜드 리스크도 커집니다. 실제 예시 영상에서도 "모호한 지시, 환각, 프롬프트 인젝션"을 핵심 위험으로 지적합니다.

  • AI가 파이썬 스크립트 사용을 알아서 추론하더라도, 개발자는 여전히 코드와 결과를 검증할 책임을 져야 합니다.

결국 Gemini 3와 Gemini CLI, ADK, Anti-gravity를 활용한 자동화는 "사람 없이 돌아가는 완전 자율 시스템"보다는,

  • 사람이 큰 방향과 기준을 정하고

  • AI 에이전트가 반복 작업·초안 작성·검색·합성 등을 맡는

협업 구조에 더 가깝습니다.

현실적인 접근은 이 정도가 아닐까요?

  • 매일·매주 반복되는 일 중에서

  • 규칙이 어느 정도 명확하고

  • 결과를 사람이 쉽게 검수할 수 있는 업무부터

하나씩 Gemini 기반 AI 직원으로 치환해 보는 것입니다. 그 과정에서 SOP 문서화, 모델 선택(고급 vs 빠른 모델), 병렬 실행 구조 설계, 휴먼 인 더 루프 설계를 경험해 보면, Gemini 3 시대의 "AI와 함께 일하는 방식"을 가장 빠르게 체득할 수 있습니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.