메인 콘텐츠로 건너뛰기

Gemini 3 Flash의 Agentic Vision 정리: 스타트업을 위한 핵심 개념

wislan
wislan
조회수 37
요약

핵심 요약

Agentic Vision은 이미지를 한 번에 "찍고 끝내는" 방식이 아니라, 스스로 확대·분석·계산하는 능력을 추가해 비전 정확도를 끌어올리는 기능입니다.
Python 코드 실행을 통해 이미지 조작과 계산을 자동으로 돌리며, 대부분의 비전 벤치마크에서 5~10% 품질 향상을 보입니다.

Agentic Vision이란 무엇인가

기존 멀티모달 모델은 이미지를 한 번에 보고 답을 만들어내는 정적인 구조에 가깝습니다.
Agentic Vision은 이 방식을 "능동적 탐사"로 바꾸어, 모델이 스스로 계획을 세우고 이미지를 다시 보고, 필요한 처리를 반복하는 형태로 진화시킵니다.
이 기능은 Gemini 3 Flash에 처음 도입된 비전 중심 능력으로, 특히 미세한 디테일이나 복잡한 시각 정보가 많은 상황에서 효과를 발휘하도록 설계되었습니다.

Think–Act–Observe 루프: 작동 원리

Agentic Vision의 핵심은 Think–Act–Observe라는 세 단계 루프입니다.
먼저 Think 단계에서 모델은 사용자의 질문과 초기 이미지를 바탕으로 "무엇을 어떻게 볼지"에 대한 다단계 계획을 세웁니다. 예를 들어 "어디를 확대해야 할지, 무엇을 세어야 할지"를 스스로 결정합니다.

Act 단계에서는 이 계획을 코드로 구현합니다.
모델은 Python 코드를 생성해 이미지를 자르거나 회전시키고, 박스를 그리거나, 이미지 내 객체를 세고, 수치 계산을 수행합니다. 이 단계가 기존 단순 비전 모델과의 가장 큰 차이점입니다.

Observe 단계에서는 코드 실행 결과로 생성된 새로운 이미지나 데이터가 다시 모델의 컨텍스트에 추가됩니다.
모델은 이렇게 변형된 이미지를 다시 "본 뒤" 최종 답변을 만드는데, 이 과정에서 답변은 단순 추측이 아니라 실제 픽셀과 계산 결과에 근거하게 됩니다.

코드 실행이 가져오는 품질 향상

Gemini 3 Flash에서 코드 실행을 켜면 대부분의 비전 벤치마크에서 5~10% 정도 성능 향상이 보고되었습니다.
이는 모델이 확률적으로 "그럴듯하게" 답하는 대신, Python 환경에서 실제 연산을 수행하기 때문입니다. 특히 숫자 계산, 객체 개수 세기, 좌표 계산처럼 오류에 민감한 작업에서 효과가 큽니다.

창업자 입장에서 보면, 비전 기반 기능의 정확도가 5~10% 올라간다는 것은 곧 "실제 프로덕트에서 쓸 수 있는 수준"으로의 전환 가능성을 의미합니다. 예를 들어 컴플라이언스 검증, 산업 검사, 문서·도표 인식처럼 에러 비용이 높은 영역에 직접 적용할 수 있습니다.

코드 실행 시 비전 벤치마크에서 5~10% 품질 향상 그래프

위 그래프는 코드 실행을 활용했을 때 다양한 비전 벤치마크에서 일관된 성능 향상이 나타나는 모습을 요약합니다.

활용 예시 1: 고해상도 이미지에서 디테일 찾기

고해상도 도면이나 설계도, 문서를 한 번에 모델에 넣으면, 필요한 영역이 상대적으로 너무 작게 보이는 문제가 있습니다.
Agentic Vision을 사용하면 모델이 스스로 "어디를 잘라서 다시 볼지"를 결정하고, Python 코드로 해당 영역을 크롭해 새 이미지로 만든 후 다시 분석합니다.

예로 소개된 PlanCheckSolver는 건축 도면을 분석해 규정 준수 여부를 검증하는 서비스입니다.
이 서비스는 루프 상단, 지붕 모서리, 특정 건물 구역을 반복적으로 크롭·확대해 가며 도면을 점검하는 방식으로 정확도를 5% 끌어올렸습니다.
이 구조는 어떤 고해상도 비전 서비스에도 바로 응용할 수 있습니다. 예를 들어 제조 공정 검사, 衛星·드론 이미지 분석, 지도·도로 표지판 인식 등이 같은 패턴을 가집니다.

활용 예시 2: 이미지 위에 직접 "생각 흔적" 남기기

Agentic Vision은 단순히 "이 손가락은 5개입니다"라고 말하는 대신, 이미지 위에 직접 박스를 그리고 숫자를 써 넣을 수 있습니다.
모델은 Python 코드로 각 손가락의 위치에 바운딩 박스를 그린 뒤, 각 박스에 번호를 붙이는 식으로 시각적 메모를 남깁니다.

이 방식은 두 가지 이점을 줍니다.
하나는 모델 내부적으로 "무엇을 세고 있는지"를 명확히 함으로써 오류를 줄인다는 점입니다. 또 하나는 사용자에게 "모델이 어떻게 생각했는지"를 눈으로 보여줘 신뢰도를 높입니다.

스타트업 관점에서는 카운팅, 분류, 라벨링이 필요한 서비스에 이 기능을 녹이면, 모델이 결과뿐 아니라 근거까지 함께 제공하는 UX를 쉽게 구현할 수 있습니다. 예를 들어 재고 이미지 자동 라벨링, 의료 이미지에서 병변 표시, 스포츠 영상에서 선수 위치 표시 등의 시나리오가 가능합니다.

활용 예시 3: 시각 데이터 기반 수학·통계 처리

복잡한 테이블, 차트, 연구 결과 이미지를 모델에 넣으면, 기존 LLM은 숫자를 잘못 읽거나 계산을 틀리는 경우가 잦았습니다.
Agentic Vision은 먼저 이미지에서 원시 데이터를 추출한 뒤, Python으로 정규화·계산·통계를 수행하고, 다시 Matplotlib 등의 라이브러리로 새로운 그래프를 생성해 보여줄 수 있습니다.

중요한 점은 계산이 모델 내부의 확률적 추론이 아니라 "실제 코드 실행"이라는 점입니다.
따라서 기존 결과와 새로운 모델의 성능을 비교하거나, 보고서용 그래프를 만드는 작업에 더 이상 수작업 엑셀 정리가 필요 없을 수 있습니다.

데이터·리서치 중심 스타트업이라면 논문 그림, 실험 결과 스크린샷을 바로 넣고 "이전 모델 기준을 1.0으로 정규화해서 비교 차트 그려줘" 같은 워크플로를 자동화할 수 있습니다.

어떻게 써볼 수 있는가: 개발자 관점

Agentic Vision은 현재 Gemini API를 통해 Google AI Studio와 Vertex AI에서 사용할 수 있고, Gemini 앱에서도 "Thinking" 모델 선택 시 점진적으로 제공되고 있습니다.
개발자는 AI Studio Playground에서 모델을 선택하고, Tools 설정에서 "Code Execution"을 켜는 것만으로 기본 기능을 체험할 수 있습니다.

아래 예시는 특정 악기 사진에서 페달 개수를 세기 위해 "표정 페달을 확대해 달라"고 요청하는 Python 코드 예제입니다.

from google import genai
from google.genai import types

client = genai.Client()

image = types.Part.from_uri(
    file_uri="https://goo.gle/instrument-img",
    mime_type="image/jpeg",
)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "Zoom into the expression pedals and tell me how many pedals are there?"],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)]
    ),
)

print(response.text)

초기 PoC 단계에서는 Playground에서 다양한 이미지를 넣어 "어디까지 자동으로 잘 작동하는지"를 감각적으로 파악하고, 그 후에 API를 통해 핵심 워크플로에 붙이는 방식이 효율적입니다.

앞으로의 진화 방향

현재 Gemini 3 Flash는 작은 디테일을 자동으로 확대하는 행동은 꽤 잘 합니다.
다만 이미지 회전, 복잡한 시각 수학, 특정 도형 처리 같은 기능은 아직은 프롬프트로 "코드 실행을 유도"해야 잘 발동하는 편입니다. 구글은 이런 동작들도 점차 완전히 암묵적으로, 즉 별도 지시 없이도 알아서 수행하도록 개선할 계획입니다.

또한 향후에는 웹 검색, 역이미지 검색 같은 추가 도구가 연결되어, 단일 이미지 분석을 넘어 "이미지 + 외부 정보"를 결합한 더 깊은 이해가 가능해질 것으로 예고되었습니다.
모델 규모 측면에서도 지금은 Flash 중심이지만, 다른 모델 크기에도 Agentic Vision을 확장하겠다는 계획이 언급되었습니다.

인사이트

Agentic Vision은 "좋은 캡션을 만들어주는 비전 모델"에서 "실제 업무에 투입 가능한 시각 에이전트"로의 전환을 의미합니다.
스타트업 입장에서는 세 가지를 핵심 기회로 볼 수 있습니다. 첫째, 사람이 확대·표시·계산하던 비전 작업을 통째로 자동화해 인력 효율을 극대화할 수 있습니다. 둘째, 규제·검증·리스크가 큰 영역에서 5~10%의 정확도 향상을 기반으로 새로운 SaaS 기회를 만들 수 있습니다. 셋째, "답만 주는 AI"가 아니라 "근거와 과정까지 보여주는 AI"를 UX 차별화 포인트로 쓸 수 있습니다.

실행 측면에서는 작은 파일럿부터 시작하는 것이 좋습니다.
한두 개의 핵심 비전 태스크를 정하고, AI Studio에서 코드 실행을 켠 상태로 실제 업무 이미지로 실험해 보세요. 여기서 "사람이 하던 구체 작업 중 무엇을 모델에 위임할 수 있는지"가 보이기 시작하면, 그 부분이 곧 제품화 가능 영역이 됩니다.

출처 및 참고 : Introducing Agentic Vision in Gemini 3 Flash

#Agentic Vision#Gemini 3 Flash#비전 모델#AI 코드 실행#이미지 분석

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.