Microsoft Fara1.5: браузерный ИИ-агент, который делает OpenAI Operator устаревшим

Когда Microsoft что-то выпускает тихо, в пятницу вечером, без большой пресс-конференции — это либо провал, который хотят спрятать, либо нечто настолько уверенное в себе, что не нуждается в маркетинговом шуме. Fara1.5 — явно второй случай.

Лаборатория AI Frontiers опубликовала семейство браузерных агентов Fara1.5 в трёх размерах: 4B, 9B и 27B параметров. Это так называемые computer-use agents — модели, которые буквально видят экран браузера через скриншоты и управляют мышью и клавиатурой, чтобы выполнять задачи. Не API-интеграции, не заглушки — настоящее «смотрю на пиксели и делаю дело».

Цифры, которые говорят сами за себя

Центральный бенчмарк здесь — Online-Mind2Web: 300 задач на 136 популярных сайтах. Именно на нём выясняется, кто реально умеет работать в браузере, а кто умеет только красиво выглядеть на демо.

Результаты: - Fara1.5-27B — 72% (новый лидер) - Yutori Navigator n1 — 64.7% - Fara1.5-9B — 63.4% - OpenAI Operator — 58.3% - Gemini 2.5 Computer Use — 57.3% - Предшественник Fara-7B — 34.1%

Последняя цифра — самая красноречивая. Fara1.5-9B почти удвоил результат Fara-7B, при этом оставаясь в классе компактных моделей, которые можно запустить на скромном железе. Для сравнения: GUI-Owl-1.5-8B, лучшая модель в этом размерном классе до Fara1.5, набирала 49%. Fara1.5-9B делает 63.4%. Разрыв огромный.

Как это работает технически

Все три модели построены на базе чекпоинтов Qwen3.5 (4B, 9B и 27B вариантах). Это уже говорит о подходе: Microsoft взяла сильную открытую базу и заточила её под специфическую задачу, а не строила с нуля.

Агентный цикл работает по схеме observe-think-act: на каждом шаге модель получает историю разговора и три последних скриншота браузера, после чего формирует мысль и выполняет одно действие. Действия включают стандартные клавиатуру и мышь, веб-специфичные операции вроде поиска, а также метадействия — например, запоминание фактов для последующего использования или запрос уточнений у пользователя.

Эти метадействия — интересная деталь. Они позволяют агенту работать на длинных горизонтах и сотрудничать с человеком, а не просто автономно молотить задачи до победного или до краша. Это более реалистичная модель взаимодействия.

FaraGen1.5: синтетические данные как секретное оружие

За результатами стоит отдельная система — FaraGen1.5, пайплайн для генерации синтетических обучающих данных. Именно здесь Microsoft решила принципиальную проблему: как обучить агента на задачах, которые требуют авторизации или совершают необратимые действия (отправка письма, бронирование билета)?

Ответ: шесть синтетических клонов реальных сервисов — FaraEnvs. Они покрывают почту, календарь, стриминг, ML-платформу, бронирование жилья и планировщик задач. Каждый клон имеет реалистичный фронтенд, полноценный API и базу данных с персонажными тестовыми данными. Созданы с помощью GitHub Copilot CLI плюс итеративная доработка людьми.

Солвер-агент, генерирующий обучающие траектории, работает на GPT-5.4 (да, именно так — Microsoft использует OpenAI для создания данных для конкурирующего агента, и это не ирония, а прагматизм) и достигает 83% на Online-Mind2Web. Для сравнения, предыдущий солвер на базе Fara-7B брал 67%.

Обучение прошло на ~2 миллионах примеров: 60% — веб-траектории, 12.8% — синтетические среды, 12.5% — заполнение форм и взаимодействие с пользователем, остальное — граундинг, VQA, GUI-операции и безопасность.

MagenticLite: новая оболочка для маленьких моделей

Fara1.5 интегрирована с MagenticLite — обновлённым фреймворком Microsoft, который специально переработан для компактных языковых моделей. Это эволюция Magentic-UI, созданная по запросам сообщества. К связке добавлен MagenticBrain (14B) — оркестратор, который планирует, пишет код и делегирует задачи. Вместе они образуют полный агентный стек для браузерных задач, работы с локальными файлами, форм и бронирований.

Что это значит для индустрии

Мне кажется, здесь важны три вещи.

Первое: компактность побеждает масштаб. Fara1.5-9B с 63.4% обходит гигантские проприетарные системы OpenAI и Google. Это прямое подтверждение тезиса, что правильные данные и специализация бьют сырую мощность.

Второе: Microsoft серьёзно играет в open-source агентику. Код MagenticLite уже на GitHub. Это не просто технический пиар — это попытка стать инфраструктурным слоем для всей экосистемы браузерных агентов.

Третье: OpenAI Operator в серьёзной позиции. Набрать 58.3% при том, что open-source модель на 9B параметров берёт 63.4% — это неприятная ситуация для продукта, который позиционируется как флагман автономной работы в браузере.

Для российских пользователей

Модели распространяются через Hugging Face, доступ к репозиторию требует стандартной авторизации. MagenticLite — открытый фреймворк на GitHub, доступен без ограничений. Для запуска Fara1.5-9B потребуется GPU с ~20 ГБ VRAM, 27B-версия — уже серьёзное железо или облачный инференс. Прямого коммерческого API пока нет, что означает: либо self-hosted, либо ждать интеграции в Azure.

Информация подтверждена несколькими независимыми публикациями, включая официальный технический блог Microsoft Research.

Microsoft Fara1.5: браузерный ИИ-агент, который делает OpenAI Operator устаревшим

Цифры, которые говорят сами за себя

Как это работает технически

FaraGen1.5: синтетические данные как секретное оружие

MagenticLite: новая оболочка для маленьких моделей

Что это значит для индустрии

Для российских пользователей

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Tencent выпустила Hy3: модель бьёт конкурентов в 5 раз крупнее себя

Конец эпохи: Amazon закрывает Mechanical Turk для новых клиентов

Baidu Unlimited OCR: десятки страниц за один проход без роста памяти