본문으로 바로가기
검색
회원가입로그인
page thumbnail

Grok 1.5 Vision 출시 - 물리적 세계를 이해하는 멀티모달 모델

요약

xAI에서 멀티모달 모델인 Grok-1.5 Vision 프리뷰 모델을 공개했습니다.

이 모델은 물리적 세계를 더 잘 이해한다고 합니다.

Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷 및 사진 등 다양한 시각 정보를 처리할 수 있습니다.

이 모델은 조만간 초기 테스터와 현재 Grok 사용자에게 곧 사용 가능할 예정입니다.

성능은 기존 최첨단 멀티모달 모델(SOTA)에 필적한다고 하네요.

Grok 1.5 Vision 출시 - 물리적 세계를 이해하는 멀티모달 모델 image 1

RealWorldQA 벤치마크가 추가됐는데 이건 실세계 공간 이해를 측정하는 새로운 벤치마크라고 합니다. 이 벤치마크는 xAI에서 만든 것으로 차량에서 추출된 700개 이상의 익명화된 이미지와 쉽게 검증이 가능한 질문으로 구성된 세트입니다. 오픈소스로 공개했습니다.

xAI에서 출시된 비전 모델을 살펴 보면 멀티모달의 물리적 세계 이해를 추구하는 걸 알 수 있습니다.

Grok-1.5 Vision Preview