xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 공개했습니다.

이 모델은 물리적 세계를 더 잘 이해한다고 합니다.

Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷 및 사진 등 다양한 시각 정보를 처리할 수 있습니다.

이 모델은 조만간 초기 테스터와 현재 Grok 사용자에게 곧 사용 가능할 예정입니다.

성능은 기존 최첨단 멀티모달 모델(SOTA)에 필적한다고 하네요.

![](https://server.tilnote.io/images/pages/0e0425ce-ba81-4d32-b137-23d08f93f358.png)

RealWorldQA 벤치마크가 추가됐는데 이건 실세계 공간 이해를 측정하는 새로운 벤치마크라고 합니다. 이 벤치마크는 xAI에서 만든 것으로 차량에서 추출된 700개 이상의 익명화된 이미지와 쉽게 검증이 가능한 질문으로 구성된 세트입니다. 오픈소스로 공개했습니다.

xAI에서 출시된 비전 모델을 살펴 보면 멀티모달의 물리적 세계 이해를 추구하는 걸 알 수 있습니다.

[Grok-1.5 Vision Preview](https://x.ai/blog/grok-1.5v)

xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 공개했습니다.이 모델은 물리적 세계를 더 잘 이해한다고 합니다.Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷 및 사진 등 다양한 시각 정보를 처리할 수 있습니다.이 모델은 조만간 초기 테스터와 현재 Grok 사용자에게 곧 사용 가능할 예정입니다.성능은 기존 최첨단 멀티모달 모델(SOTA)에 필적한다고 하네요.<img src="https://server.tilnote.io/images/pages/0e0425ce-ba81-4d32-b137-23d08f93f358.png" alt="Grok 1.5 Vision 출시 - 물리적 세계를 이해하는 멀티모달 모델 image 1">RealWorldQA 벤치마크가 추가됐는데 이건 실세계 공간 이해를 측정하는 새로운 벤치마크라고 합니다. 이 벤치마크는 xAI에서 만든 것으로 차량에서 추출된 700개 이상의 익명화된 이미지와 쉽게 검증이 가능한 질문으로 구성된 세트입니다. 오픈소스로 공개했습니다.xAI에서 출시된 비전 모델을 살펴 보면 멀티모달의 물리적 세계 이해를 추구하는 걸 알 수 있습니다.<a href="https://x.ai/blog/grok-1.5v">Grok-1.5 Vision Preview</a>

- xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 발표했습니다.
- 이 모델은 다양한 시각적 정보를 처리할 수 있으며, 실세계를 이해하는데 초점을 맞추고 있습니다.
- RealWorldQA 벤치마크를 추가, 오픈소스로 공개했으며 이는 차량에서 추출된 700개 이상의 이미지를 통해 실세계 공간 이해를 측정합니다.