Google, 직관적인 시각 데이터 상호작용을 위한 Gemini 2.5 Conversational Image Segmentation 공개
- Google는 새로운 대화형 이미지 분할 기술인 Gemini 2.5를 공개함.
- 초기 이미지 AI는 물체의 위치를 경계 상자로 식별하였고, 이후 세분화 모델은 물체의 구체적인 형태를 나타냄.
- 개방형 어휘 모델이 등장하여 "블루 스키 부츠"와 같은 흔치 않은 라벨로도 세분화 가능.
- 대화형 이미지 분할은 보다 복잡한 설명적 구문을 이해하고 해석하는 것이 관건임.
- Gemini는 이제 사용자 요청을 이해하여 보다 직관적인 시각 데이터 상호작용 가능.
- 다섯 가지 유형의 쿼리로 Gemini의 기능 설명:
- 객체 관계: 복잡한 객체 간 관계를 이해하고 식별 가능.
- 조건 논리: "채식 음식"과 같은 조건적 논리 쿼리를 처리 가능.
- 추상적인 개념: "손상"이나 "혼란" 같은 비시각적 개념을 세분화 가능.
- 이미지 내 텍스트: 이미지에 있는 텍스트 라벨을 통한 객체 식별.
- 다국어 라벨: 다양한 언어의 라벨을 처리 가능.
- 예시 활용:
- 창의적 미디어 편집에서 직관적 접근 가능.
- 지능형 안전 및 컴플라이언스 모니터링으로 공장 안전 보장.
- 보험 손해 평가에서 세밀한 이유로 손상 구분 가능.
- 개발자에게 주는 혜택:
- 유연한 언어 사용 촉진.
- 개발자 경험 단순화 및 접근 용이.
- 시작 방법 및 최적화 권장 사항 제공.
- 여러 기여자 및 팀에 대한 감사의 말씀 언급.
5developers.googleblog.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.