Microsoft Webwright: терминал вместо браузера — и GPT-5.4 взлетает до 60%

Когда «кликать» — уже не вариант
Представьте себе разработчика, которого заставляют каждый раз вручную кликать по интерфейсу вместо того, чтобы написать скрипт. Именно так работает большинство современных веб-агентов — они получают скриншот или DOM-дерево страницы и предсказывают следующее примитивное действие: клик, скролл, ввод текста. Microsoft Research решила, что это архаика, и выпустила Webwright — фреймворк, который переосмысливает саму модель взаимодействия агента с браузером.
Идея радикально простая: дать агенту терминал, а не браузерную сессию. Пусть пишет код.
Что такое Webwright и почему это не очередной фреймворк
Webwright — это открытый фреймворк от лаборатории AI Frontiers в Microsoft Research, созданный командой из четырёх исследователей (двое из Microsoft, двое из Университета Гонконга). Вся система умещается примерно в 1000–1500 строк кода и состоит из трёх модулей: Runner (~150 строк), Model Endpoint (~550 строк) и terminal Environment (~300 строк). Никаких многоагентных оркестровок, граф-движков, скрытых слоёв абстракции — только один агентный цикл.
Агент получает терминал и пишет Playwright-скрипты для управления браузером. Playwright — тоже продукт Microsoft, библиотека для программного управления Chromium, Firefox и WebKit. Разница с классическим подходом принципиальная: браузерная сессия здесь не является постоянным рабочим пространством. Агент запускает браузер, инспектирует страницу, пишет скрипт, перезапускает — и так итеративно, как настоящий инженер, разрабатывающий RPA-автоматизацию.
Постоянный артефакт — не сессия браузера, а код и логи в локальном воркспейсе. Это меняет всё: скрипт можно переиспользовать, адаптировать, передать коллеге. Вместо того чтобы каждый раз заново «открывать» сайт, агент один раз создаёт программу.
Как решаются главные инженерные проблемы
Разработчики честно признают два ключевых вызова, с которыми столкнулись.
Первый — преждевременное завершение (premature 'done'). Модель склонна объявлять задачу выполненной, не закончив её на самом деле. Решение элегантное: агент обязан сгенерировать конфиг самопроверки, запустить финальный скрипт в чистой папке и пройти собственный «суд» — только после этого флаг `done: true` засчитывается.
Второй — взрыв контекста. Длинные траектории кода быстро переполняют контекстное окно. Решение: каждые 20 шагов история компактируется в одно резюме. Просто и работает.
Цифры, которые говорят сами за себя
Webwright тестировали на двух бенчмарках.
На Odysseys — бенчмарке для сложных долгосрочных веб-задач — GPT-5.4 в связке с Webwright достигает 60,1% против базовых 33,5% той же модели без фреймворка. Прирост почти вдвое — это не косметика, это смена парадигмы.
На Online-Mind2Web (300 задач по 136 популярным сайтам) результаты ещё более впечатляющие: GPT-5.4 показывает 86,67% — лучший результат среди всех опенсорсных решений в категории AutoEval при бюджете в 100 шагов. Claude Opus 4.7 достигает 84,7% в общем зачёте, но обходит GPT-5.4 на сложных задачах при N=100: 80,5% против 76,6%.
Отдельный факт, который меня лично впечатляет: даже небольшая модель Qwen3.5-9B с инструментами Webwright показывает сильные результаты на сложном разделе Online-Mind2Web. Это означает, что фреймворк усиливает не только топовые модели — он масштабируется вниз.
Стоимость: $2,37 за задачу при использовании GPT-5.4. На выходе — переиспользуемый RPA-скрипт. Считайте это инвестицией, а не расходом.
Почему это важно для разработчиков и бизнеса
Классические веб-агенты хрупки: стоит сайту чуть изменить вёрстку — и агент теряется. Webwright обходит эту проблему через структурный доступ к DOM, ожидание условий и обработку динамического поведения (lazy loading, ре-рендеринг). Скрипты не зависят от пиксельных координат.
Для бизнеса это означает возможность один раз написать автоматизацию и переиспользовать её. Скрипт, созданный Webwright, можно запускать через CLI с аргументами — это уже полноценный RPA-инструмент, только созданный не программистом вручную, а агентом.
Фреймворк уже интегрируется с Claude Code, Codex, OpenClaw и Hermes через плагин-манифесты. Добавить Webwright в существующий агентный стек — вопрос одной команды.
Task2UI mode, добавленный 11 мая 2026 года, позволяет агенту не просто выполнить задачу, но и отрендерить результаты в HTML-приложение для просмотра и переиспользования. Это уже не автоматизация — это генерация интерфейсов на лету.
Мой взгляд: смена парадигмы или ещё один инструмент?
Честно говоря, Webwright — один из тех проектов, которые выглядят очевидными задним числом. «Дать агенту терминал» звучит банально, но до этого никто не доводил идею до рабочего состояния с такими бенчмарками.
Сравнение с конкурентами показательно: большинство фреймворков для веб-агентов (Browser Use, SWE-agent в веб-режиме, Browserbase) работают в парадигме «один шаг — одно действие». Webwright ломает этот принцип принципиально. И результаты говорят, что модели действительно готовы к такому уровню свободы — им просто не давали инструментов.
Для российских разработчиков: Webwright — это опенсорс на GitHub, доступен без ограничений. Для работы нужны API-ключи OpenAI, Anthropic или OpenRouter. С прямым доступом к OpenAI из РФ по-прежнему есть вопросы, но через OpenRouter или собственный прокси всё решаемо.
Эта информация подтверждена несколькими независимыми публикациями, включая официальный блог Microsoft Research и репозиторий проекта.
Похожие новости
Claude Code сам придумал алгоритм ИИ, который люди не додумались бы
Исследователи дали агенту Claude Code свободу поиска — и он нашёл алгоритм, сокращающий вычисления на 70% при той же точности. Открытие обошлось в $40.
Perplexity открыла Bumblebee — сканер для защиты от атак на разработчиков
Компания выложила в open-source инструмент, который проверяет AI-окружения без запуска кода. Реальная защита от supply-chain атак на локальной машине.
Qwen3.7-Max: ИИ Alibaba 35 часов сам оптимизировал чип без помощи людей
Новая модель Alibaba автономно работала почти полтора суток, ускорив код в 10 раз. Это новый стандарт для агентских ИИ-систем.