Name: Florence-2
Author: Microsoft

Question 1

Что такое Florence-2?

Accepted Answer

Компактная открытая vision-модель Microsoft (июнь 2024, лицензия MIT). Одна модель решает сразу несколько задач компьютерного зрения по текстовому промпту: подписи к изображениям, детекцию объектов, OCR, сегментацию и region grounding. Доступна в версиях base (0.23B) и large (0.77B параметров).

Question 2

Florence-2 — это чат-бот?

Accepted Answer

Нет. Это не разговорная модель: вы даёте ей изображение и промпт-задачу (например, , для детекции, ), а она возвращает результат — подпись, рамки объектов, распознанный текст или маску. Для диалога об изображении нужны большие мультимодальные LLM, а Florence-2 — инструмент для конкретных vision-операций.

Question 3

Сколько стоит Florence-2?

Accepted Answer

Бесплатно. Это открытая модель под лицензией MIT — самой свободной из распространённых: можно скачать веса с Hugging Face, запускать локально и использовать коммерчески без ограничений и роялти. Платить не нужно вообще; расходы — только на собственное железо для инференса.

Question 4

Какие задачи Florence-2 выполняет?

Accepted Answer

Подписи к изображениям (три уровня детализации), детекцию объектов и open-vocabulary detection, OCR с координатами, region grounding и сегментацию по текстовому описанию, dense-региональные подписи. Всё это — одной моделью, переключение между задачами идёт через специальный токен-промпт.

Question 5

Какое железо нужно?

Accepted Answer

Очень скромное: base-версия (0.23B параметров) запускается даже на CPU, large (0.77B) комфортно работает на недорогой GPU. Это одно из главных преимуществ Florence-2 — качество уровня крупных моделей при размере, который помещается почти на любом железе.

Question 6

Работает ли Florence-2 в России?

Accepted Answer

Да, без ограничений — это локальная open-source модель: качаете веса с Hugging Face и запускаете у себя через библиотеку transformers. Карты, аккаунты и VPN для самого запуска не нужны (VPN может пригодиться лишь для стабильной загрузки с HF). Промпты и ожидаемый текст лучше держать на английском.

Question 7

Для чего Florence-2 подходит лучше всего?

Accepted Answer

Для прикладных vision-задач разработчиков: авторазметки датасетов (быстро разметить тысячи изображений), извлечения текста и объектов из документов/скриншотов, и как vision-бэкенд в пайплайнах — например, Florence-2 находит объект, а SAM 2 строит по нему точную маску. Для «поговорить о картинке» берут мультимодальные LLM.

Florence-2

Рейтинг и бенчмарки

Входные и выходные данные

Способы доступа

Сценарии использования

Тарифы и подписки — Microsoft

Плюсы и минусы

Подробный обзор

Что такое Florence-2

Что умеет — по промпту

Где применяют и статус в 2026

Доступность в России

Часто задаваемые вопросы

Все эти инструменты — уже на Genova-ai

Другие модели Microsoft

Похожие модели