QvQ – Qwen의 새로운 시각적 추론 모델을 시도 중
- 알리바바의 Qwen 팀이 새로운 시각적 추론 모델 QvQ-72B-Preview를 공개함.
- 이 모델은 Hugging Face Spaces에서 이미지와 프롬프트를 입력받아 문제를 생각하고 긴 응답을 스트리밍함.
- 다양한 테스트를 해보았으며, 예를 들어 펠리컨을 세는 작업에서는 정확한 결과를 제공.
- ARC-AGI 퍼즐 등 일부 문제에서는 잘못된 결과를 보였으나 흥미로운 아이디어를 제공.
- QvQ를 로컬에서 실행하는 방법도 설명, M2 맥북 프로에서 성공적으로 실행됨.
- mlx-vlm 패키지를 사용하여 QvQ를 실행하여 이미지 설명을 생성함.
- 텍스트를 비디오로 변환하는 도구로 이미지를 설명하고, 다양한 스타일 옵션을 제공하는 방식으로 창의적인 비디오 콘텐츠를 생성할 수 있음.
5simonwillison.net링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.