Florence-2
Компактная открытая vision-модель Microsoft (июнь 2024, лицензия MIT): одна модель решает подписи к изображениям, детекцию объектов, OCR, сегментацию и region grounding по текстовому промпту. Версии base (0.23B) и large (0.77B) — крошечные, но конкурируют с моделями в разы крупнее. Не чат-бот, а рабочая лошадка для vision-пайплайнов.
Рейтинг и бенчмарки
Входные и выходные данные
Способы доступа
Сценарии использования
Тарифы и подписки — Microsoft
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Чекпойнты base/large и fine-tuned на Hugging Face (MIT)
- Запуск через transformers — даже на CPU (base)
- Коммерческое использование без ограничений
- Готовые task-промпты: <CAPTION>, <OD>, <OCR>, <REFERRING_EXPRESSION_SEGMENTATION> и др.
Плюсы и минусы
Подробный обзор
Что такое Florence-2
Florence-2 — компактная открытая vision-модель от Microsoft, выпущенная в июне 2024 года под свободной лицензией MIT. Её идея — одна модель на все базовые задачи компьютерного зрения: вместо того чтобы держать отдельные сети для подписей, детекции, OCR и сегментации, вы даёте Florence-2 картинку и специальный текстовый промпт-задачу, а она возвращает нужный результат. Архитектурно это компактная seq2seq-модель (визуальный энкодер DaViT + трансформер-энкодер-декодер), которая трактует любую задачу как «текст по картинке».
Что умеет — по промпту
- Подписи к изображениям — три уровня детализации, от короткой до развёрнутой
- Детекция объектов и open-vocabulary detection — боксы с метками, в т.ч. по произвольному запросу
- OCR — распознавание текста на изображении, в том числе с координатами
- Region grounding и сегментация — «покажи, где на фото красная машина» → бокс или маска
- Dense-региональные подписи — описание отдельных областей кадра
Под капотом — обучение на датасете FLD-5B: 5.4 млрд аннотаций на 126 млн изображений. Именно это позволяет крошечной модели (base — 0.23B, large — 0.77B параметров) показывать качество на уровне моделей, которые в разы больше.
Где применяют и статус в 2026
Florence-2 — не разговорная модель, а рабочий инструмент для разработчиков. Её главные сценарии: авторазметка датасетов (быстро и дёшево разметить тысячи картинок), vision-бэкенд в пайплайнах (например, Florence-2 находит объект, а SAM 2 вырезает точную маску), извлечение текста и структуры из документов и скриншотов. Несмотря на то что модель вышла в 2024 году и с тех пор не обновлялась, она остаётся одной из самых популярных лёгких vision-моделей — за счёт связки «крошечный размер + MIT-лицензия + много задач сразу». Для сложного рассуждения над изображением сегодня берут большие мультимодальные LLM, но для механической работы со зрением Florence-2 часто оптимальнее.
Доступность в России
Модель работает в России без ограничений — это открытые веса под MIT: качаете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности загрузки) и запускаете локально через библиотеку transformers. Аккаунты, зарубежные карты и подписки не нужны, base-версия идёт даже на CPU. Единственный нюанс — модель оптимизирована под английский, поэтому OCR и подписи на русском получаются слабее, чем на английском.