Microsoft, 다양한 비전 작업을 처리하는 통합 모델인 Florence-2를 출시하다

2024-06-19

마이크로소프트는 다양한 시각 작업을 처리할 수 있는 통합 모델인 Florence-2를 Hugging Face에 발표했습니다.
Florence-2는 permissive MIT 라이선스 하에 제공되며, 시각 및 시각-언어 작업을 처리할 수 있는 통합, 프롬프트 기반 표현을 사용합니다.
이 모델은 232M 및 771M 파라미터의 두 가지 크기로 제공되며, 캡셔닝, 객체 감지, 시각적 정합 및 세분화 등의 작업에서 이미 많은 대형 시각 모델과 동등하거나 더 나은 성능을 보여줍니다.
Florence-2는 이미지 인코더와 멀티모달리티 인코더-디코더를 통합하는 순차-순차 아키텍처를 사용하여 다양한 시각 작업을 처리할 수 있습니다.
FLD-5B라는 시각 데이터셋을 이용하여 학습되었으며, 이 데이터셋에는 126백만 이미지에 대한 54억 개의 주석이 포함되어 고도로 상세한 정보를 제공합니다.
이미지와 텍스트 입력에 프롬프트될 때, Florence-2는 객체 감지, 캡셔닝, 시각적 정합 및 시각적 질문 답변과 같은 다양한 작업을 처리합니다.
이 모델은 사전 훈련 및 파인 튜닝 버전 모두를 상업적 사용 또는 개인 사용을 위한 무제한 수정 및 배포가 가능한 permissive MIT 라이선스 하에 Hugging Face에서 제공됩니다.
개발자들이 다양한 작업을 위해 별도의 시각 모델의 필요성을 없애고 연산 비용을 상당히 절감할 수 있는 가능성을 보여줍니다.

4venturebeat.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기