Google, 직관적인 시각 데이터 상호작용을 위한 Gemini 2.5 Conversational Image Segmentation 공개

  • Google는 새로운 대화형 이미지 분할 기술인 Gemini 2.5를 공개함.
  • 초기 이미지 AI는 물체의 위치를 경계 상자로 식별하였고, 이후 세분화 모델은 물체의 구체적인 형태를 나타냄.
  • 개방형 어휘 모델이 등장하여 "블루 스키 부츠"와 같은 흔치 않은 라벨로도 세분화 가능.
  • 대화형 이미지 분할은 보다 복잡한 설명적 구문을 이해하고 해석하는 것이 관건임.
  • Gemini는 이제 사용자 요청을 이해하여 보다 직관적인 시각 데이터 상호작용 가능.
  • 다섯 가지 유형의 쿼리로 Gemini의 기능 설명:
    • 객체 관계: 복잡한 객체 간 관계를 이해하고 식별 가능.
    • 조건 논리: "채식 음식"과 같은 조건적 논리 쿼리를 처리 가능.
    • 추상적인 개념: "손상"이나 "혼란" 같은 비시각적 개념을 세분화 가능.
    • 이미지 내 텍스트: 이미지에 있는 텍스트 라벨을 통한 객체 식별.
    • 다국어 라벨: 다양한 언어의 라벨을 처리 가능.
  • 예시 활용:
    • 창의적 미디어 편집에서 직관적 접근 가능.
    • 지능형 안전 및 컴플라이언스 모니터링으로 공장 안전 보장.
    • 보험 손해 평가에서 세밀한 이유로 손상 구분 가능.
  • 개발자에게 주는 혜택:
    • 유연한 언어 사용 촉진.
    • 개발자 경험 단순화 및 접근 용이.
  • 시작 방법 및 최적화 권장 사항 제공.
  • 여러 기여자 및 팀에 대한 감사의 말씀 언급.

5developers.googleblog.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기