Florence-2

Florence-2

Компактная открытая vision-модель Microsoft (июнь 2024, лицензия MIT): одна модель решает подписи к изображениям, детекцию объектов, OCR, сегментацию и region grounding по текстовому промпту. Версии base (0.23B) и large (0.77B) — крошечные, но конкурируют с моделями в разы крупнее. Не чат-бот, а рабочая лошадка для vision-пайплайнов.

Бесплатно (открытые веса, MIT)Работает в РФ
7/10📅 2024-06🏢 Microsoft✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
7/10
Benchmark Score
7/10
Скорость
9/10
Параметры
base 0.23B / large 0.77B
Задачи
caption, detection, OCR, grounding, segmentation — одной моделью
Обучение
FLD-5B — 5.4 млрд аннотаций на 126 млн изображений
COCO Caption (CIDEr)
~143 (large)

Входные и выходные данные

Входные данные
изображениетекст
Выходные данные
текст

Способы доступа

Self-hosted (Hugging Facetransformers)

Сценарии использования

подписи к изображениямдетекция объектовOCRсегментация и region groundingавторазметка датасетовvision-бэкенд в пайплайнах

Тарифы и подписки — Microsoft

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Открытые веса (self-host)
Бесплатно
  • Чекпойнты base/large и fine-tuned на Hugging Face (MIT)
  • Запуск через transformers — даже на CPU (base)
  • Коммерческое использование без ограничений
  • Готовые task-промпты: <CAPTION>, <OD>, <OCR>, <REFERRING_EXPRESSION_SEGMENTATION> и др.
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Лицензия MIT — полностью свободная, коммерческое использование без ограничений (редкость среди vision-foundation моделей)
Одна модель — много задач по промпту: подписи (3 уровня детализации), детекция, OCR, dense-региональные подписи, сегментация и region grounding
Крошечная: base 0.23B запускается даже на CPU / слабой GPU, при этом конкурирует с моделями в разы крупнее (уровня Kosmos-2)
Идеальна для авторазметки датасетов и как vision-бэкенд в пайплайнах (например, в связке с SAM 2 для сегментации)
Открытые веса — полный локальный контроль, данные не покидают вашу машину
Сильный zero-shot — работает «из коробки» без дообучения, есть и fine-tuned версии
✗ Минусы
Это не чат-бот: модель выполняет vision-задачу по промпту (подпись/боксы/маски), а не ведёт диалог
По сложному рассуждению над изображением уступает большим мультимодальным LLM (GPT Image 2-vision, Gemini, Claude)
Нужна техническая настройка (Python, transformers) — нет потребительского интерфейса и официального облачного API
Оптимизирована под английский — OCR и подписи на русском слабее
Выпущена в июне 2024 и с тех пор не обновлялась — для самых свежих VLM-задач есть более новые модели
Только понимание изображений: генерировать картинки она не умеет

Подробный обзор

Что такое Florence-2

Florence-2 — компактная открытая vision-модель от Microsoft, выпущенная в июне 2024 года под свободной лицензией MIT. Её идея — одна модель на все базовые задачи компьютерного зрения: вместо того чтобы держать отдельные сети для подписей, детекции, OCR и сегментации, вы даёте Florence-2 картинку и специальный текстовый промпт-задачу, а она возвращает нужный результат. Архитектурно это компактная seq2seq-модель (визуальный энкодер DaViT + трансформер-энкодер-декодер), которая трактует любую задачу как «текст по картинке».

Что умеет — по промпту

  • Подписи к изображениям — три уровня детализации, от короткой до развёрнутой
  • Детекция объектов и open-vocabulary detection — боксы с метками, в т.ч. по произвольному запросу
  • OCR — распознавание текста на изображении, в том числе с координатами
  • Region grounding и сегментация — «покажи, где на фото красная машина» → бокс или маска
  • Dense-региональные подписи — описание отдельных областей кадра

Под капотом — обучение на датасете FLD-5B: 5.4 млрд аннотаций на 126 млн изображений. Именно это позволяет крошечной модели (base — 0.23B, large — 0.77B параметров) показывать качество на уровне моделей, которые в разы больше.

Где применяют и статус в 2026

Florence-2 — не разговорная модель, а рабочий инструмент для разработчиков. Её главные сценарии: авторазметка датасетов (быстро и дёшево разметить тысячи картинок), vision-бэкенд в пайплайнах (например, Florence-2 находит объект, а SAM 2 вырезает точную маску), извлечение текста и структуры из документов и скриншотов. Несмотря на то что модель вышла в 2024 году и с тех пор не обновлялась, она остаётся одной из самых популярных лёгких vision-моделей — за счёт связки «крошечный размер + MIT-лицензия + много задач сразу». Для сложного рассуждения над изображением сегодня берут большие мультимодальные LLM, но для механической работы со зрением Florence-2 часто оптимальнее.

Доступность в России

Модель работает в России без ограничений — это открытые веса под MIT: качаете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности загрузки) и запускаете локально через библиотеку transformers. Аккаунты, зарубежные карты и подписки не нужны, base-версия идёт даже на CPU. Единственный нюанс — модель оптимизирована под английский, поэтому OCR и подписи на русском получаются слабее, чем на английском.

Часто задаваемые вопросы

Что такое Florence-2?
Компактная открытая vision-модель Microsoft (июнь 2024, лицензия MIT). Одна модель решает сразу несколько задач компьютерного зрения по текстовому промпту: подписи к изображениям, детекцию объектов, OCR, сегментацию и region grounding. Доступна в версиях base (0.23B) и large (0.77B параметров).
Florence-2 — это чат-бот?
Нет. Это не разговорная модель: вы даёте ей изображение и промпт-задачу (например, <CAPTION>, <OD> для детекции, <OCR>), а она возвращает результат — подпись, рамки объектов, распознанный текст или маску. Для диалога об изображении нужны большие мультимодальные LLM, а Florence-2 — инструмент для конкретных vision-операций.
Сколько стоит Florence-2?
Бесплатно. Это открытая модель под лицензией MIT — самой свободной из распространённых: можно скачать веса с Hugging Face, запускать локально и использовать коммерчески без ограничений и роялти. Платить не нужно вообще; расходы — только на собственное железо для инференса.
Какие задачи Florence-2 выполняет?
Подписи к изображениям (три уровня детализации), детекцию объектов и open-vocabulary detection, OCR с координатами, region grounding и сегментацию по текстовому описанию, dense-региональные подписи. Всё это — одной моделью, переключение между задачами идёт через специальный токен-промпт.
Какое железо нужно?
Очень скромное: base-версия (0.23B параметров) запускается даже на CPU, large (0.77B) комфортно работает на недорогой GPU. Это одно из главных преимуществ Florence-2 — качество уровня крупных моделей при размере, который помещается почти на любом железе.
Работает ли Florence-2 в России?
Да, без ограничений — это локальная open-source модель: качаете веса с Hugging Face и запускаете у себя через библиотеку transformers. Карты, аккаунты и VPN для самого запуска не нужны (VPN может пригодиться лишь для стабильной загрузки с HF). Промпты и ожидаемый текст лучше держать на английском.
Для чего Florence-2 подходит лучше всего?
Для прикладных vision-задач разработчиков: авторазметки датасетов (быстро разметить тысячи изображений), извлечения текста и объектов из документов/скриншотов, и как vision-бэкенд в пайплайнах — например, Florence-2 находит объект, а SAM 2 строит по нему точную маску. Для «поговорить о картинке» берут мультимодальные LLM.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно