IDEFICS - 플라밍고를 재구현한 시각 언어 모델 (이미지를 텍스트로 전환)

IDEFICS (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)

deepmind에서 내놓은 vision-language model인 Flamingo를 재구현한 오픈 모델입니다. 텍스트와 이미지를 인풋으로 입력하면 이를 언어로 된 텍스트로 바꾸어 이해하는 멀티모달입니다.

이미지 + 텍스트 -> 텍스트

공개 데이터 및 모델을 기반으로 구축했다고 합니다. LLaMA v1 및 OpenCLIP 을 사용했습니다.

허깅 페이스에서 만들었습니다. 허깅 페이스 허브에서 IDEFICS 모델 데모를 사용할 수 있습니다. IDEFICS Playground - a Hugging Face Space by HuggingFaceM4

IDEFICS - 플라밍고를 재구현한 시각 언어 모델 (이미지를 텍스트로 전환) image 1

저는 슈퍼 패미컴 사진을 넣고 어떤 내용인지 물어봤습니다. 위와 같이 llama를 사용해 잘 대답을 해줍니다.

The image shows a Super Nintendo Entertainment System (SNES) Classic Edition console, which is a miniature version of the original Super Nintendo Entertainment System (SNES) released in 1990. The SNES Classic Edition is a dedicated video game console that comes pre-loaded with 21 classic games from the SNES era, including Super Mario World, The Legend of Zelda: A Link to the Past, and Super Metroid. It is designed to provide a nostalgic gaming experience for fans of the original SNES console and introduce younger generations to the classic games of the 1990s.

이게 왜 중요한가?

멀티 모달로 이미지를 이해하는 인공지능을 만들 때 활용할 수 있기 때문입니다. 이미지는 OpenClip과 같이 이미지를 텍스트로 변환하여 이해하는 방법과 이미지를 픽셀의 패턴으로 이해하는 방식이 있습니다. 둘 다 이미지를 벡터로 변환하여 처리할 수 있게 합니다. 전자는 이미지를 LLM이 이해할 수 있는 방식으로 전환하기 때문에 비교적 빨리 도입될 것으로 예상합니다. 후자는 이미지 to 이미지 검색에서 많이 활용될 것으로 보입니다.

또한 deepmind 에서 만든 사유 소프트웨어 (proprietary) 를 오픈 방식으로 재구현한 것도 독특했습니다.