SAM 2

SAM 2

Segment Anything Model 2 от Meta (июль 2024) — открытая модель сегментации объектов на изображениях и в видео в реальном времени (~44 кадра/сек). Выделяет объект по клику, рамке или маске, работает zero-shot. Apache 2.0, бесплатна. Инструмент компьютерного зрения, не чат-бот.

Бесплатно (open weights, Apache 2.0)Работает в РФ
7.5/10📅 2024-07-29🏢 Meta✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
7.5/10
Benchmark Score
7.8/10
Скорость
9/10
Скорость
~44 кадра/сек (реальное время)
Промпты
клик, рамка, маска
Zero-shot
да
Датасет SA-V
51 000 видео, 600 000+ масок
Релиз
29 июля 2024

Входные и выходные данные

Входные данные
изображениевидеоклик / рамка / маска
Выходные данные
маски сегментации

Способы доступа

Self-hosted (GitHubHuggingFace)веб-демоAWS SageMaker JumpStart

Сценарии использования

сегментация объектов в видео и на фотовидеоредактирование и ротоскопингразметка данных для CV-датасетовудаление/замена объектовAR/робототехникамедицинская и спутниковая визуализация

Тарифы и подписки — Meta

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Популярный
Self-hosted (Open Weights)
Бесплатно (Apache 2.0)
  • Код и веса на GitHub (facebookresearch/sam2) и HuggingFace
  • 4 размера: tiny, small, base+, large
  • Коммерческое использование без ограничений
  • Запуск через Python, нужна GPU для реал-тайма
  • Датасет SA-V для дообучения (51K видео)
Веб-демо
Бесплатно
  • Интерактивная демонстрация на сайте Meta
  • Попробовать сегментацию без установки
  • Клик по объекту → маска и отслеживание
  • Для оценки возможностей перед интеграцией
AWS SageMaker JumpStart
По тарифам AWS
  • Развёртывание SAM 2.1 в облаке Amazon
  • Без своей GPU-инфраструктуры
  • Для production-пайплайнов CV
  • Оплата за вычисления AWS
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Единая модель для сегментации и изображений, и видео — раньше для этого нужны были разные инструменты
Работа в реальном времени (~44 кадра/сек) — подходит для интерактивного редактирования и live-видео
Промпт-сегментация: выделяешь объект кликом, рамкой или маской — модель находит и отслеживает его по всему видео
Zero-shot — работает с объектами, которых не было в обучении, без дообучения
Полностью открыта под Apache 2.0 — коммерческое использование, self-host и дообучение без ограничений
Streaming memory — модель помнит объект между кадрами видео, отслеживая его даже при перекрытии и исчезновении из кадра
✗ Минусы
Это НЕ чат-бот и не генеративная модель — инструмент сегментации (компьютерное зрение), требует технической интеграции
Нет готового продукта для обычного пользователя — только веса, код и веб-демо; нужен Python и навыки CV
Не генерирует контент — только выделяет и отслеживает уже существующие объекты на фото/видео
Для запуска нужна GPU — реал-тайм требует видеокарты, на CPU работает медленно
Нет официального облачного API от Meta — только self-host или сторонние хостинги (Replicate, AWS)
Появилась SAM 3 (2025) — для новых проектов стоит смотреть на свежую версию

Подробный обзор

Что такое SAM 2

SAM 2 (Segment Anything Model 2) — модель сегментации объектов от Meta, выпущенная 29 июля 2024 года. Это второе поколение знаменитой SAM: если первая версия работала только с изображениями, то SAM 2 объединила сегментацию изображений и видео в одной модели. Важно понимать: это не чат-бот и не генератор контента, а инструмент компьютерного зрения — он выделяет (сегментирует) и отслеживает объекты на фото и в видео. Используется в видеоредактировании, разметке данных, AR, робототехнике и научной визуализации.

Как это работает

SAM 2 — промпт-сегментация: вы указываете объект простым промптом — кликом, рамкой или маской на любом кадре, и модель находит его, выделяет точной маской и отслеживает по всему видео. Ключевая инновация — streaming memory: модель обрабатывает кадры последовательно и помнит объект между ними, продолжая отслеживать его даже когда он перекрывается, исчезает из кадра и появляется снова. SAM 2 работает zero-shot — узнаёт объекты, которых не было в обучении, без дообучения.

Скорость и архитектура

SAM 2 спроектирована для работы в реальном времени — около 44 кадров в секунду, что делает её пригодной для интерактивного редактирования и live-видео. Архитектура: трансформерный энкодер изображения, энкодер промптов (клик/рамка/маска), модуль streaming memory и декодер масок. Модель вышла в четырёх размерах — tiny, small, base+ и large — под разный баланс скорости и точности. Обучена на датасете SA-V: ~51 000 реальных видео и более 600 000 пространственно-временных масок (masklets), который Meta тоже открыла.

Где применяется

Главные сценарии: видеоредактирование и ротоскопинг (выделить объект для замены фона, удаления или цветокоррекции), разметка данных для обучения других CV-моделей (SAM 2 резко ускоряет аннотацию видео), AR и робототехника (понимание сцены в реальном времени), а также медицинская и спутниковая визуализация. Для контент-мейкеров SAM 2 — основа инструментов автоматического выделения объектов в видеоредакторах.

Лицензия, доступ и Россия

SAM 2 полностью открыта под Apache 2.0 — максимально свободная лицензия с правом коммерческого использования. Код и веса на GitHub (facebookresearch/sam2) и HuggingFace, есть интерактивное веб-демо для теста и развёртывание в AWS SageMaker JumpStart (версия 2.1). Официального облачного API от Meta нет — это self-host инструмент, для запуска нужны Python и GPU (для реального времени). Веса не блокируются для России — свободно качаются с GitHub/HuggingFace и запускаются локально. Языковой интерфейс не нужен — модель работает с визуальными промптами (клик/рамка), а не с текстом. В 2025 вышла SAM 3 — для новых проектов стоит смотреть на неё.

Часто задаваемые вопросы

Что такое SAM 2 и для чего он нужен?
SAM 2 (Segment Anything Model 2) — открытая модель сегментации объектов от Meta, выпущенная 29 июля 2024 года. Она выделяет и отслеживает объекты на изображениях и в видео в реальном времени. Это НЕ чат-бот и не генератор — инструмент компьютерного зрения. Применяется в видеоредактировании (ротоскопинг, замена фона), разметке данных для CV, AR, робототехнике и научной визуализации.
Чем SAM 2 отличается от первой SAM?
Первая SAM (2023) работала только с изображениями. SAM 2 объединила сегментацию изображений и видео в одной модели и добавила работу в реальном времени (~44 кадра/сек). Ключевая новинка — streaming memory: модель помнит объект между кадрами видео и продолжает отслеживать его даже при перекрытии или исчезновении из кадра. Это сделало SAM 2 пригодной для видео, а не только статичных картинок.
Как пользоваться SAM 2?
SAM 2 — промпт-сегментация: вы указываете объект кликом, рамкой или маской на кадре, и модель выделяет его точной маской и отслеживает по всему видео. Попробовать можно в веб-демо Meta без установки. Для интеграции в проект нужно скачать код и веса с GitHub (facebookresearch/sam2), это требует Python и GPU. Готового приложения для обычного пользователя нет — это инструмент для разработчиков.
Бесплатен ли SAM 2 и можно ли использовать коммерчески?
Да, SAM 2 полностью бесплатна и открыта под лицензией Apache 2.0 — максимально свободной, разрешающей коммерческое использование, модификацию и распространение без ограничений и отчислений. Можно встроить в свой продукт, дообучить на датасете SA-V (Meta его тоже открыла) и распространять. Платить нужно только за вычисления, если запускаете в облаке (AWS).
Работает ли SAM 2 в России?
Да. Веса и код свободно качаются с GitHub и HuggingFace, не блокируются — модель запускается локально из России. Языковой интерфейс не нужен: SAM 2 работает с визуальными промптами (клик, рамка), а не с текстом, поэтому вопрос русского языка не актуален. Для запуска нужны Python и GPU (для реального времени). Это удобно — никаких региональных ограничений и оплаты.
Какие требования к железу для SAM 2?
Для работы в реальном времени (~44 кадра/сек) нужна GPU. SAM 2 вышла в четырёх размерах: tiny и small запускаются на слабых видеокартах и быстрее, base+ и large точнее, но требуют больше ресурсов. На CPU модель работает, но медленно — реал-тайм только на GPU. Для разовой обработки фото подойдёт и слабое железо, для потокового видео нужна полноценная видеокарта.
Актуальна ли SAM 2 в 2026 и какие альтернативы?
SAM 2 — рабочий инструмент, но в 2025 вышла SAM 3, для новых проектов стоит смотреть на неё. Альтернативы для сегментации: SAM 3 (свежее поколение Meta), специализированные CV-модели вроде Grounding DINO + SAM для текстовых промптов, коммерческие API сегментации. Для большинства задач выделения объектов в видео SAM 2/3 остаются стандартом де-факто в open-source компьютерном зрении.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно