Meta의 SAM 3 분할 모델은 언어와 비전의 경계를 흐린다.
-
Meta는 "Segment Anything Model"의 세 번째 세대인 SAM 3를 출시했습니다. 이 모델은 고정된 범주에 한정되지 않고 열린 어휘를 사용하여 이미지 및 동영상을 이해합니다.
-
SAM 3는 인간과 AI 주석자가 결합된 새로운 교육 방법을 사용하여 특정 개념을 이미지 및 비디오에서 분리할 수 있습니다. 사용자는 텍스트 프롬프트, 예시 이미지 또는 시각적 프롬프트를 사용할 수 있습니다.
-
Meta는 모델 가중치 및 코드와 함께 사용자가 SAM 3를 테스트할 수 있는 웹 인터페이스인 Segment Anything Playground를 출시했습니다.
-
SAM 3는 "프롬프트 가능 개념 세분화"를 통해 이미지 및 동영상에서 특정 개념을 식별하고 분할하며, 이는 기존 시스템의 성능을 두 배 이상 향상시킵니다.
-
Meta는 하이브리드 "데이터 엔진"을 활용하여 AI 모델이 초기 세분화 마스크를 생성하고, 이를 인간과 AI 주석자가 검증 및 수정하도록 하여 교육 속도를 높였습니다. 이 과정을 통해 400만 개 이상의 고유한 개념이 포함된 교육 데이터셋을 생성했습니다.
-
SAM 3는 Facebook Marketplace의 "View in Room" 기능에 사용되며, Instagram의 'Edits' 앱에서는 특정 사람이나 객체에 효과를 적용할 수 있는 기능이 곧 구현될 예정입니다.
-
이 모델은 초당 30밀리초에 걸쳐 100개 이상의 객체를 처리할 수 있으며, 동영상에서는 실시간에 가까운 처리 속도를 유지합니다.
-
SAM 3는 훈련 데이터 외부의 특정 기술 용어와 복잡한 논리적 설명에는 어려움을 겪습니다. 이러한 문제 해결을 위해 Meta는 Llama나 Gemini와의 다중 모달 언어 모델과 SAM 3를 결합한 "SAM 3 Agent"를 제안합니다.
-
SAM 3와 함께 Meta는 단일 2D 이미지를 사용하여 3D 재구성을 생성하는 SAM 3D 모델을 출시했습니다. 3D 데이터가 부족한 문제를 해결하기 위해 다수의 AI 생성 메시 옵션을 사용하여 전문가가 이를 평가하며 3D 정보를 갖춘 시스템을 개발했습니다.
-
SAM 3D는 인간의 자세와 형태를 캡처하는데 특화되어 있으며 약 800만 개의 이미지로 훈련되었습니다. 그러나 생성된 3D 객체의 해상도가 제한적이며, 복잡한 구조에서는 세부사항이 손실됩니다.
-
Meta는 이 기술이 아직 초기 단계에 있으며, 추후 개선이 필요함을 언급했습니다.
