검색
검색
공개 노트 검색
회원가입로그인

Grok 1.5 Vision 출시 - 물리적 세계를 이해하는 멀티모달 모델

요약
  • xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 발표했습니다.
  • 이 모델은 다양한 시각적 정보를 처리할 수 있으며, 실세계를 이해하는데 초점을 맞추고 있습니다.
  • RealWorldQA 벤치마크를 추가, 오픈소스로 공개했으며 이는 차량에서 추출된 700개 이상의 이미지를 통해 실세계 공간 이해를 측정합니다.

xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 공개했습니다.

이 모델은 물리적 세계를 더 잘 이해한다고 합니다.

Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷 및 사진 등 다양한 시각 정보를 처리할 수 있습니다.

이 모델은 조만간 초기 테스터와 현재 Grok 사용자에게 곧 사용 가능할 예정입니다.

성능은 기존 최첨단 멀티모달 모델(SOTA)에 필적한다고 하네요.

Grok 1.5 Vision 출시 - 물리적 세계를 이해하는 멀티모달 모델 image 1

RealWorldQA 벤치마크가 추가됐는데 이건 실세계 공간 이해를 측정하는 새로운 벤치마크라고 합니다. 이 벤치마크는 xAI에서 만든 것으로 차량에서 추출된 700개 이상의 익명화된 이미지와 쉽게 검증이 가능한 질문으로 구성된 세트입니다. 오픈소스로 공개했습니다.

xAI에서 출시된 비전 모델을 살펴 보면 멀티모달의 물리적 세계 이해를 추구하는 걸 알 수 있습니다.

Grok-1.5 Vision Preview

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 311
heart
T
페이지 기반 대답
AI Chat