SAM 2
Segment Anything Model 2 от Meta (июль 2024) — открытая модель сегментации объектов на изображениях и в видео в реальном времени (~44 кадра/сек). Выделяет объект по клику, рамке или маске, работает zero-shot. Apache 2.0, бесплатна. Инструмент компьютерного зрения, не чат-бот.
Рейтинг и бенчмарки
Входные и выходные данные
Способы доступа
Сценарии использования
Тарифы и подписки — Meta
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Код и веса на GitHub (facebookresearch/sam2) и HuggingFace
- 4 размера: tiny, small, base+, large
- Коммерческое использование без ограничений
- Запуск через Python, нужна GPU для реал-тайма
- Датасет SA-V для дообучения (51K видео)
- Интерактивная демонстрация на сайте Meta
- Попробовать сегментацию без установки
- Клик по объекту → маска и отслеживание
- Для оценки возможностей перед интеграцией
- Развёртывание SAM 2.1 в облаке Amazon
- Без своей GPU-инфраструктуры
- Для production-пайплайнов CV
- Оплата за вычисления AWS
Плюсы и минусы
Подробный обзор
Что такое SAM 2
SAM 2 (Segment Anything Model 2) — модель сегментации объектов от Meta, выпущенная 29 июля 2024 года. Это второе поколение знаменитой SAM: если первая версия работала только с изображениями, то SAM 2 объединила сегментацию изображений и видео в одной модели. Важно понимать: это не чат-бот и не генератор контента, а инструмент компьютерного зрения — он выделяет (сегментирует) и отслеживает объекты на фото и в видео. Используется в видеоредактировании, разметке данных, AR, робототехнике и научной визуализации.
Как это работает
SAM 2 — промпт-сегментация: вы указываете объект простым промптом — кликом, рамкой или маской на любом кадре, и модель находит его, выделяет точной маской и отслеживает по всему видео. Ключевая инновация — streaming memory: модель обрабатывает кадры последовательно и помнит объект между ними, продолжая отслеживать его даже когда он перекрывается, исчезает из кадра и появляется снова. SAM 2 работает zero-shot — узнаёт объекты, которых не было в обучении, без дообучения.
Скорость и архитектура
SAM 2 спроектирована для работы в реальном времени — около 44 кадров в секунду, что делает её пригодной для интерактивного редактирования и live-видео. Архитектура: трансформерный энкодер изображения, энкодер промптов (клик/рамка/маска), модуль streaming memory и декодер масок. Модель вышла в четырёх размерах — tiny, small, base+ и large — под разный баланс скорости и точности. Обучена на датасете SA-V: ~51 000 реальных видео и более 600 000 пространственно-временных масок (masklets), который Meta тоже открыла.
Где применяется
Главные сценарии: видеоредактирование и ротоскопинг (выделить объект для замены фона, удаления или цветокоррекции), разметка данных для обучения других CV-моделей (SAM 2 резко ускоряет аннотацию видео), AR и робототехника (понимание сцены в реальном времени), а также медицинская и спутниковая визуализация. Для контент-мейкеров SAM 2 — основа инструментов автоматического выделения объектов в видеоредакторах.
Лицензия, доступ и Россия
SAM 2 полностью открыта под Apache 2.0 — максимально свободная лицензия с правом коммерческого использования. Код и веса на GitHub (facebookresearch/sam2) и HuggingFace, есть интерактивное веб-демо для теста и развёртывание в AWS SageMaker JumpStart (версия 2.1). Официального облачного API от Meta нет — это self-host инструмент, для запуска нужны Python и GPU (для реального времени). Веса не блокируются для России — свободно качаются с GitHub/HuggingFace и запускаются локально. Языковой интерфейс не нужен — модель работает с визуальными промптами (клик/рамка), а не с текстом. В 2025 вышла SAM 3 — для новых проектов стоит смотреть на неё.