xAI는 Grok-1.5 Vision 다중 모드 AI 모델과 물리적 세계 벤치마크를 소개합니다

  • xAI는 물리적 세계에 대한 이해가 향상된 Grok-1.5 Vision 다중 모드 AI 모델의 미리보기를 공개.
  • Elon Musk의 AI 스타트업 xAI는 경쟁 모델보다 물리적 세계를 더 잘 이해한다고 주장하는 첫 다중 모드 AI 모델인 Grok-1.5 Vision을 출시함.
  • Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷 및 사진 등 다양한 시각 정보를 처리할 수 있음.
  • 이 모델은 조만간 초기 테스터와 현재 Grok 사용자에게 곧 사용 가능할 예정임.
  • 다양한 벤치마크에서 OpenAI의 GPT-4, Anthropic의 Claude, Gemini Pro와 같은 경쟁 모델에 상응하거나 더 나은 결과를 달성함. 특히 새로 도입된 RealWorldQA 벤치마크에서는 물리적 세계에 대한 공간 이해력을 측정하여 경쟁자들을 능가함.
  • RealWorldQA 데이터셋은 700개 이상의 이미지로 구성되어 있고, 각 이미지는 질문과 쉽게 검증 가능한 답변을 포함함. 이 데이터셋은 커뮤니티에 CC BY-ND 4.0 라이선스로 다운로드를 위해 제공됨.
  • xAI는 다양한 모달리티(이미지, 오디오, 비디오 등)에서 다중 모드 이해 및 생성 능력의 발전을 중요한 단계로 보고 있으며, 이를 통해 유용한 인공 일반 지능(AGI)을 개발하는 것을 목표로 함.
  • xAI는 Grok-2를 출시할 예정이며, Elon Musk는 이 모델이 GPT-4를 능가할 것이라고 언급함.

5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기