Google, 직관적인 시각 데이터 상호작용을 위한 Gemini 2.5 Conversational Image Segmentation 공개

2025-07-23

Google는 새로운 대화형 이미지 분할 기술인 Gemini 2.5를 공개함.
초기 이미지 AI는 물체의 위치를 경계 상자로 식별하였고, 이후 세분화 모델은 물체의 구체적인 형태를 나타냄.
개방형 어휘 모델이 등장하여 "블루 스키 부츠"와 같은 흔치 않은 라벨로도 세분화 가능.
대화형 이미지 분할은 보다 복잡한 설명적 구문을 이해하고 해석하는 것이 관건임.
Gemini는 이제 사용자 요청을 이해하여 보다 직관적인 시각 데이터 상호작용 가능.
다섯 가지 유형의 쿼리로 Gemini의 기능 설명:
- 객체 관계: 복잡한 객체 간 관계를 이해하고 식별 가능.
- 조건 논리: "채식 음식"과 같은 조건적 논리 쿼리를 처리 가능.
- 추상적인 개념: "손상"이나 "혼란" 같은 비시각적 개념을 세분화 가능.
- 이미지 내 텍스트: 이미지에 있는 텍스트 라벨을 통한 객체 식별.
- 다국어 라벨: 다양한 언어의 라벨을 처리 가능.
예시 활용:
- 창의적 미디어 편집에서 직관적 접근 가능.
- 지능형 안전 및 컴플라이언스 모니터링으로 공장 안전 보장.
- 보험 손해 평가에서 세밀한 이유로 손상 구분 가능.
개발자에게 주는 혜택:
- 유연한 언어 사용 촉진.
- 개발자 경험 단순화 및 접근 용이.
시작 방법 및 최적화 권장 사항 제공.
여러 기여자 및 팀에 대한 감사의 말씀 언급.

5developers.googleblog.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.