Fastvlm: 비전 언어 모델을 위한 효율적인 비전 인코딩

2025-05-13

FastVLM은 효율적인 비전-언어 모델 인코딩을 위한 FastViTHD라는 새로운 하이브리드 비전 인코더를 소개.
FastViTHD는 고해상도 이미지를 처리할 때 토큰 수를 줄이고 인코딩 시간을 크게 단축.
가장 작은 변형 모델은 LLaVA-OneVision-0.5B보다 85배 빠른 첫 번째 토큰 생성 시간과 3.4배 작은 비전 인코더 성능을 보여줌.
더 큰 변형 모델은 Qwen2-7B LLM을 사용하여 Cambrian-1-8B 같은 최근 모델보다 우수.
iOS 앱 데모로 모바일 기기에서 모델 성능을 시연.
LLaVA 코드를 사용하여 FastVLM 변형을 훈련.
다양한 평가에 대한 자세한 정보를 논문에서 확인 가능.
Pytorch 체크포인트 다운로드 및 예측 사용 시 지침 제공.
Apple Silicon 및 Apple 기기에서 모델 추론 실행 가능.
코드를 유용하다고 생각하면 인용 정보 제공.
코드 기반은 여러 오픈소스 기여를 바탕으로 개발.

4github.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.