facebook/sam3.1 · Hugging Face
핵심 포인트
- 1SAM 3은 Meta의 통합 foundational model로, text 또는 visual prompt를 사용하여 이미지 및 비디오에서 객체를 segment, detect, track하며 open-vocabulary 개념을 포괄적으로 분할합니다.
- 2SAM 3.1은 SAM 3을 기반으로 Object Multiplex를 도입하여, multi-object tracking에서 단일 H100 GPU로 128개 객체에 대해 정확도를 유지하면서 약 7배 빠른 inference를 제공합니다.
- 3또한, SAM 3.1은 7개 VOS benchmark 중 6개에서 향상된 성능을 보이며, 현재 repository는 SAM 3.1 model checkpoint만을 제공하고 자세한 내용은 SAM 3 GitHub repository에서 확인할 수 있습니다.
Meta에서 개발한 SAM 3.1은 이미지 및 비디오에서 promptable segmentation을 위한 통합 파운데이션 모델입니다. 이는 SAM 3 (Segment Anything with Concepts)의 개선된 버전입니다.
SAM 3은 텍스트 또는 점(points), 상자(boxes), 마스크(masks)와 같은 시각적 프롬프트(visual prompts)를 사용하여 객체를 감지(detect), 분할(segment), 추적(track)하는 기능을 제공합니다. 특히, 짧은 텍스트 구문으로 지정된 open-vocabulary concept의 모든 인스턴스를 철저하게 분할하는 능력을 도입하여 기존 벤치마크보다 50배 이상 많은 고유한 개념을 처리할 수 있습니다.
SAM 3.1은 이러한 SAM 3의 기반 위에 Object Multiplex라는 핵심적인 개선 사항을 추가했습니다. Object Multiplex는 joint multi-object tracking을 위한 shared-memory approach(공유 메모리 접근 방식)입니다. 이 접근 방식을 통해 SAM 3.1은 정확도를 희생하지 않으면서 단일 H100 GPU에서 128개의 객체를 처리할 때 약 7배 더 빠른 추론 속도를 달성합니다. 또한, 7개 벤치마크 중 6개에서 VOS(Video Object Segmentation) 성능이 향상되었습니다.
이 모델은 주로 마스크 생성(mask generation) 파이프라인 태그에 속하며, 체크포인트(checkpoint) 형태로 제공됩니다. SAM 3.1의 주요 기술적 특징은 다중 객체 추적의 효율성을 극대화하기 위한 메모리 관리 전략에 있으며, 이는 실시간 또는 대규모 비디오 분석 애플리케이션에서 특히 유리합니다. 이 리포지토리에는 SAM 3.1 모델 체크포인트만 호스팅되어 있으며, 전체 설치, 코드 및 사용 예시는 SAM 3 GitHub 리포지토리에서 찾을 수 있습니다.