Microsoft Fara1.5: браузерный ИИ-агент, который делает OpenAI Operator устаревшим

Когда Microsoft что-то выпускает тихо, в пятницу вечером, без большой пресс-конференции — это либо провал, который хотят спрятать, либо нечто настолько уверенное в себе, что не нуждается в маркетинговом шуме. Fara1.5 — явно второй случай.
Лаборатория AI Frontiers опубликовала семейство браузерных агентов Fara1.5 в трёх размерах: 4B, 9B и 27B параметров. Это так называемые computer-use agents — модели, которые буквально видят экран браузера через скриншоты и управляют мышью и клавиатурой, чтобы выполнять задачи. Не API-интеграции, не заглушки — настоящее «смотрю на пиксели и делаю дело».
Цифры, которые говорят сами за себя
Центральный бенчмарк здесь — Online-Mind2Web: 300 задач на 136 популярных сайтах. Именно на нём выясняется, кто реально умеет работать в браузере, а кто умеет только красиво выглядеть на демо.
Результаты: - Fara1.5-27B — 72% (новый лидер) - Yutori Navigator n1 — 64.7% - Fara1.5-9B — 63.4% - OpenAI Operator — 58.3% - Gemini 2.5 Computer Use — 57.3% - Предшественник Fara-7B — 34.1%
Последняя цифра — самая красноречивая. Fara1.5-9B почти удвоил результат Fara-7B, при этом оставаясь в классе компактных моделей, которые можно запустить на скромном железе. Для сравнения: GUI-Owl-1.5-8B, лучшая модель в этом размерном классе до Fara1.5, набирала 49%. Fara1.5-9B делает 63.4%. Разрыв огромный.
Как это работает технически
Все три модели построены на базе чекпоинтов Qwen3.5 (4B, 9B и 27B вариантах). Это уже говорит о подходе: Microsoft взяла сильную открытую базу и заточила её под специфическую задачу, а не строила с нуля.
Агентный цикл работает по схеме observe-think-act: на каждом шаге модель получает историю разговора и три последних скриншота браузера, после чего формирует мысль и выполняет одно действие. Действия включают стандартные клавиатуру и мышь, веб-специфичные операции вроде поиска, а также метадействия — например, запоминание фактов для последующего использования или запрос уточнений у пользователя.
Эти метадействия — интересная деталь. Они позволяют агенту работать на длинных горизонтах и сотрудничать с человеком, а не просто автономно молотить задачи до победного или до краша. Это более реалистичная модель взаимодействия.
FaraGen1.5: синтетические данные как секретное оружие
За результатами стоит отдельная система — FaraGen1.5, пайплайн для генерации синтетических обучающих данных. Именно здесь Microsoft решила принципиальную проблему: как обучить агента на задачах, которые требуют авторизации или совершают необратимые действия (отправка письма, бронирование билета)?
Ответ: шесть синтетических клонов реальных сервисов — FaraEnvs. Они покрывают почту, календарь, стриминг, ML-платформу, бронирование жилья и планировщик задач. Каждый клон имеет реалистичный фронтенд, полноценный API и базу данных с персонажными тестовыми данными. Созданы с помощью GitHub Copilot CLI плюс итеративная доработка людьми.
Солвер-агент, генерирующий обучающие траектории, работает на GPT-5.4 (да, именно так — Microsoft использует OpenAI для создания данных для конкурирующего агента, и это не ирония, а прагматизм) и достигает 83% на Online-Mind2Web. Для сравнения, предыдущий солвер на базе Fara-7B брал 67%.
Обучение прошло на ~2 миллионах примеров: 60% — веб-траектории, 12.8% — синтетические среды, 12.5% — заполнение форм и взаимодействие с пользователем, остальное — граундинг, VQA, GUI-операции и безопасность.
MagenticLite: новая оболочка для маленьких моделей
Fara1.5 интегрирована с MagenticLite — обновлённым фреймворком Microsoft, который специально переработан для компактных языковых моделей. Это эволюция Magentic-UI, созданная по запросам сообщества. К связке добавлен MagenticBrain (14B) — оркестратор, который планирует, пишет код и делегирует задачи. Вместе они образуют полный агентный стек для браузерных задач, работы с локальными файлами, форм и бронирований.
Что это значит для индустрии
Мне кажется, здесь важны три вещи.
Первое: компактность побеждает масштаб. Fara1.5-9B с 63.4% обходит гигантские проприетарные системы OpenAI и Google. Это прямое подтверждение тезиса, что правильные данные и специализация бьют сырую мощность.
Второе: Microsoft серьёзно играет в open-source агентику. Код MagenticLite уже на GitHub. Это не просто технический пиар — это попытка стать инфраструктурным слоем для всей экосистемы браузерных агентов.
Третье: OpenAI Operator в серьёзной позиции. Набрать 58.3% при том, что open-source модель на 9B параметров берёт 63.4% — это неприятная ситуация для продукта, который позиционируется как флагман автономной работы в браузере.
Для российских пользователей
Модели распространяются через Hugging Face, доступ к репозиторию требует стандартной авторизации. MagenticLite — открытый фреймворк на GitHub, доступен без ограничений. Для запуска Fara1.5-9B потребуется GPU с ~20 ГБ VRAM, 27B-версия — уже серьёзное железо или облачный инференс. Прямого коммерческого API пока нет, что означает: либо self-hosted, либо ждать интеграции в Azure.
Информация подтверждена несколькими независимыми публикациями, включая официальный технический блог Microsoft Research.
Похожие новости
OpenAI теряет $1.22 на каждый заработанный доллар: убытки без прикрас
При выручке $5,7 млрд в первом квартале 2026 года OpenAI всё равно уходит в минус — скорректированная операционная маржа составила минус 122%. И это уже без учёта акционерных компенсаций.
ИИ от OpenAI опроверг задачу Эрдёша, нерешённую 80 лет
Модель OpenAI нашла доказательство, которое обошло лучших математиков планеты: задача о единичных расстояниях пала после восьми десятилетий сопротивления.
Cohere открывает исходники Command A+: 218 млрд параметров для всех
Канадская компания Cohere выпустила свою мощнейшую языковую модель Command A+ в открытый доступ под лицензией Apache 2.0. Агентский бенчмарк вырос с 37 до 85% — это серьёзная заявка.