Google이 Agentic Vision을 Gemini 3 Flash에서 공개하여 에이전틱 프로세스로 이미지 이해를 향상합니다.
-
구글은 Gemini 3 Flash의 새로운 기능인 Agentic Vision을 발표하였습니다. 이 기능은 시각적 추론과 코드 실행을 결합하여 시각적 증거에 기반한 답변을 제공합니다.
-
Agentic Vision은 이미지를 이해하는 과정을 정적인 행동에서 능동적인 탐구로 전환합니다. 이 모델은 시각적 추론과 코드 실행을 함께 사용하여 이미지를 확대, 검사 및 조작하여 단계별로 분석할 수 있는 계획을 세웁니다.
-
Gemini 3 Flash의 코드 실행 기능은 대부분의 시각적 벤치마크에서 품질을 5-10% 향상시킵니다.
-
Agentic Vision은 '생각, 행동, 관찰(Think, Act, Observe)' 루프를 도입하여 사용자 질의와 초기 이미지를 분석하고, Python 코드를 생성 및 실행하여 이미지를 조작하거나 분석하며, 변환된 이미지를 문맥 창에 추가합니다.
-
이 기술은 Zooming 및 검사, 이미지 주석, 시각적 수학 및 플로팅을 포함한 여러 응용 프로그램을 활성화할 수 있습니다. 예를 들어, 에이전트 프로세스를 통해 빌딩 계획 검증 플랫폼에서 정확도를 5% 향상시켰고, 이미지를 자르고 분석하는 코드 실행을 사용하였습니다.
-
앞으로 더 많은 암시적 코드 기반 행동을 통합하고, 모델의 이해를 더욱 강화할 웹 및 역 이미지 검색 기능 등의 도구를 제공할 예정입니다.
-
Agentic Vision은 현재 Google AI Studio 및 Vertex AI의 Gemini API를 통해 사용할 수 있으며, Gemini 앱에서도 점차적으로 출시되고 있습니다. AI Studio Playground에서 "코드 실행" 기능을 활성화하여 새로운 기능을 실험해볼 수 있습니다.