Gemini 3 Flash ‘Agentic Vision’ 공개: 이미지를 ‘보는 AI’에서 ‘조사하는 AI’

Agentic Vision은 구글이 Gemini 3 Flash에 새로 넣은 이미지 이해 방식입니다. 한 번 “훑어보고” 답을 내던 기존 비전 모델과 달리, 필요하면 스스로 확대하고(zoom), 잘라보고(crop), 표시하고(annotate), 계산까지 하면서 “증거를 쌓아” 결론을 내립니다.¹ 이 글에서는 Agentic Vision이 무엇인지, 왜 환각(헛소리)을 줄이는 방향인지, 실제로 어떤 일을 더 잘하게 되는지, 그리고 개발자가 어디서 어떻게 써볼 수 있는지까지 한 번에 정리해볼게요.

Agentic Vision이 바꾸는 것: ‘한 번 보기’에서 ‘단계별 수사’로

지금까지 많은 멀티모달 모델은 이미지를 받으면 대체로 한 번에 해석합니다. 문제는 디테일이 숨어 있을 때예요. 멀리 있는 표지판 글씨, 작은 부품의 시리얼 넘버, 복잡한 도면의 특정 구역처럼 “정답이 픽셀 몇 줄에만 걸린” 문제라면 모델이 놓치기 쉽습니다. 놓치면? 그다음은 추정, 즉 그럴듯한 답이 튀어나올 확률이 올라가죠.

Agentic Vision은 여기서 발상을 바꿉니다. 이미지 이해를 ‘정적인 인식’이 아니라 ‘능동적인 탐구 과정’으로 취급합니다.¹ 사람이 사진을 확대해가며 확인하듯, 모델도 목표를 세우고 필요한 조작을 실행한 뒤, 그 결과를 다시 보고 다음 행동을 고르는 방식입니다.

Think–Act–Observe 루프: 시각적 추론 + 파이썬 실행의 조합

Agentic Vision의 핵심은 Think, Act, Observe라는 반복 루프입니다.¹

먼저 Think 단계에서 모델이 질문과 이미지를 보고 “어디를 확인해야 하는지” 계획을 짭니다. 그다음 Act 단계에서 파이썬 코드를 만들어 실행합니다. 여기엔 이미지 자르기, 회전, 확대, 주석 달기 같은 조작도 들어가고, 숫자를 세거나 표를 계산하는 분석도 들어갑니다. 마지막으로 Observe 단계에서, 코드 실행으로 만들어진 ‘변환된 이미지’가 다시 문맥에 추가됩니다. 모델은 이 새 이미지를 근거로 다음 행동을 하거나 최종 답을 냅니다.

쉽게 말해, 답을 만들기 전에 “증거 사진을 추가로 찍어오는” 셈입니다. 그래서 말이 앞서는 대신, 확인한 내용이 답을 끌고 가는 구조에 가까워집니다.

품질이 실제로 얼마나 오르나? 벤치마크 5–10% 개선

구글이 공개한 내용에 따르면 Gemini 3 Flash에서 코드 실행을 활성화하면 대부분의 비전 벤치마크에서 일관되게 5–10% 수준의 품질 향상이 나타났습니다.¹ 이 수치가 흥미로운 이유는, 이미지 이해에서의 “몇 %”가 종종 체감 차이로 크게 느껴지기 때문이에요.

예를 들어 손가락 개수를 세는 단순 과제도, 사람이 보면 쉽지만 모델은 종종 한두 개를 놓치거나 겹친 부분을 헷갈립니다. 이런 종류의 미스가 바로 사용자 신뢰를 깎는 포인트죠. Agentic Vision은 이런 구간에서 ‘확대 + 표시 + 재확인’ 같은 절차를 통해 실수를 줄이는 방향으로 설계되어 있습니다.

실제 사용 사례: 도면 검증부터 손가락 세기까지

Agentic Vision이 “있으면 좋다” 수준이 아니라 “업무 결과를 바꾼다”는 걸 보여준 예시가 몇 가지 공개됐습니다.

고해상도 건축 도면을 검사하는 서비스 PlanCheckSolver.com은 Gemini 3 Flash에서 코드 실행을 켠 뒤 정확도가 5% 향상됐다고 합니다.¹ 요점은 모델이 도면을 한 번 보고 끝내지 않고, 규정 판단에 필요한 지점(지붕 가장자리, 특정 구역 등)을 스스로 잘라서 반복적으로 확인했다는 점이에요. 도면 검증은 “전체 분위기”가 아니라 “특정 선 하나”가 정답을 좌우하니, 이런 에이전틱 접근이 특히 잘 맞습니다.

또 다른 예로, Gemini 앱에서는 손 사진에서 손가락(또는 숫자)을 세는 과제에서 모델이 파이썬으로 박스와 라벨을 이미지 위에 그려가며 확인하는 데모가 소개됐습니다.¹ 말로만 “다섯 개 같아요”가 아니라, ‘시각적 메모장(visual scratchpad)’을 만든 뒤 그걸 근거로 답을 내는 방식이죠.

표가 빽빽한 이미지에서 값을 읽어 계산하거나, 시각적 수학 문제를 풀고 그래프를 그리는 응용도 함께 언급됩니다.¹

개발자는 어디서 써보나? AI Studio·Vertex AI·Gemini API

현재 Agentic Vision은 개발자 기준으로 Google AI Studio와 Vertex AI의 Gemini API에서 사용할 수 있고, Gemini 앱에도 점진적으로 들어오는 중입니다.¹² 빠르게 맛보기로 실험하려면 AI Studio의 Playground에서 “코드 실행” 옵션을 켜고 이미지와 질문을 던져보는 방식이 가장 직관적입니다.¹

여기서 중요한 포인트는 “모델이 코드를 쓴다”가 아니라 “모델이 필요한 만큼 이미지를 다시 만들어 문맥에 추가한다”는 점입니다. 즉, 프롬프트를 길게 써서 ‘제발 확대해줘’라고 애원하는 스타일에서, 모델이 상황에 따라 도구를 쓰는 쪽으로 UX가 이동한다는 뜻이기도 합니다.

시사점으로 보면, 이미지 AI의 경쟁 포인트가 단순 인식 정확도에서 “검증 가능한 절차(프로세스)로 답을 내는가”로 옮겨가는 느낌이 강합니다. 특히 문서/도면/표처럼 실수가 곧 비용인 영역에서는, 속도 좋은 Flash급 모델이 이런 에이전틱 루프까지 장착했다는 게 꽤 큰 변화예요.

결론적으로, Agentic Vision은 이미지를 ‘묘사하는 능력’보다 ‘확인하는 습관’을 모델에 심는 업데이트에 가깝습니다. 개발자라면 지금 시점에서 할 일은 단순합니다. 이미지에서 디테일 때문에 틀리던 지점을 리스트업하고, 코드 실행을 켠 Gemini 3 Flash로 다시 테스트해보는 것. 그때 체감되는 “덜 찍는” 순간이 아마 곧바로 보일 겁니다.

참고

¹Introducing Agentic Vision in Gemini 3 Flash

²Gemini Flash 3 gets ‘Agentic Vision’ for smarter image responses - BusinessToday

Gemini 3 Flash ‘Agentic Vision’ 공개: 이미지를 ‘보는 AI’에서 ‘조사하는 AI’로