PaliGemma

팔리젬마는 구글에서 만든 경량의 개방형 비전 언어 모델 (VLM)입니다. SigLIP 비전 모델과 Gemma 언어 모델에 기반하여 만들어졌습니다. 이미지와 텍스트를 모두 입력으로 사용하며 세부 정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 이미지 분석, 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma는 경량 open 모델로서 제공되며, General purpose set과 Research-oriented set 두 가지로 나뉘어져 있습니다. 또한 텍스트와 이미지를 동시에 이해할 수 있기 때문에 다중 모달 이해(Multimodal comprehension) 능력을 지니고 있습니다.

PaliGemma 모델은 캐글에서 다운로드 받을 수 있습니다.

PaliGemma - 구글의 비전 오픈 모델 image 1

미세 조정된 paligemma 3b mix 등의 모델이 있습니다.

PaliGemma | Google for Developers

구글에서 공개한 오픈형 비전 모델입니다.

데모는 허깅페이스에서 사용해 볼 수 있습니다. PaliGemma Demo - a Hugging Face Space by big-vision

고양이의 세그먼트 그리기, 이미지에 있는 도시 이름 맞추기 등 다양하게 활용됩니다.