Qwen2-VL: 세상을 더 명확하게 보기

2024-08-29

1년의 노력 끝에 Qwen2-VL 출시
Qwen2-VL은 Qwen 모델 패밀리의 최신 비전 언어 모델
이미지 이해 향상: MathVista, DocVQA 등 벤치마크에서 SoTA 성능 달성
20분 이상의 비디오 이해 가능: 고품질 비디오 기반 질문 응답, 대화, 콘텐츠 생성 등
모바일, 로봇 운영 가능: 복잡한 추론과 의사 결정 능력
다국어 지원: 영어, 중국어 외 유럽 언어, 일본어, 한국어 등 지원
Qwen2-VL-2B & Qwen2-VL-7B 오픈소스화 및 API 제공
모델 성능: 복잡한 문제 해결, 수학적 능력, 문서 및 표 이해 등에서 우수한 성과 달성
Qwen2-VL 주요 기능:
- 객체 인식 강화: 다중 객체 인식 및 손글씨 텍스트 인식
- 실세계 문제 해결: 수학 및 코딩 능력 향상
- 비디오 이해: 비디오 분석 및 직접적인 대화 지원
- 시각 에이전트 기능: 실시간 데이터 추출 가능
모델 아키텍처: Vision Transformer (ViT) 및 Qwen2 언어 모델 기반
신규 아키텍처 업그레이드:
- Naive Dynamic Resolution 지원
- Multimodal Rotary Position Embedding (M-ROPE) 도입
개발 방법:
- Qwen2-VL 모델 API 및 예제 코드 제공
- 다양한 오픈소스 도구 및 프레임워크 지원
라이선스: Apache 2.0
차후 계획: 더 강력한 비전 언어 모델 구축 및 다중 모달 통합 노력

4qwenlm.github.io링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.