Microsoft Webwright: терминал вместо браузера — и GPT-5.4 взлетает до 60%

Когда «кликать» — уже не вариант

Представьте себе разработчика, которого заставляют каждый раз вручную кликать по интерфейсу вместо того, чтобы написать скрипт. Именно так работает большинство современных веб-агентов — они получают скриншот или DOM-дерево страницы и предсказывают следующее примитивное действие: клик, скролл, ввод текста. Microsoft Research решила, что это архаика, и выпустила Webwright — фреймворк, который переосмысливает саму модель взаимодействия агента с браузером.

Идея радикально простая: дать агенту терминал, а не браузерную сессию. Пусть пишет код.

Что такое Webwright и почему это не очередной фреймворк

Webwright — это открытый фреймворк от лаборатории AI Frontiers в Microsoft Research, созданный командой из четырёх исследователей (двое из Microsoft, двое из Университета Гонконга). Вся система умещается примерно в 1000–1500 строк кода и состоит из трёх модулей: Runner (~150 строк), Model Endpoint (~550 строк) и terminal Environment (~300 строк). Никаких многоагентных оркестровок, граф-движков, скрытых слоёв абстракции — только один агентный цикл.

Агент получает терминал и пишет Playwright-скрипты для управления браузером. Playwright — тоже продукт Microsoft, библиотека для программного управления Chromium, Firefox и WebKit. Разница с классическим подходом принципиальная: браузерная сессия здесь не является постоянным рабочим пространством. Агент запускает браузер, инспектирует страницу, пишет скрипт, перезапускает — и так итеративно, как настоящий инженер, разрабатывающий RPA-автоматизацию.

Постоянный артефакт — не сессия браузера, а код и логи в локальном воркспейсе. Это меняет всё: скрипт можно переиспользовать, адаптировать, передать коллеге. Вместо того чтобы каждый раз заново «открывать» сайт, агент один раз создаёт программу.

Как решаются главные инженерные проблемы

Разработчики честно признают два ключевых вызова, с которыми столкнулись.

Первый — преждевременное завершение (premature 'done'). Модель склонна объявлять задачу выполненной, не закончив её на самом деле. Решение элегантное: агент обязан сгенерировать конфиг самопроверки, запустить финальный скрипт в чистой папке и пройти собственный «суд» — только после этого флаг `done: true` засчитывается.

Второй — взрыв контекста. Длинные траектории кода быстро переполняют контекстное окно. Решение: каждые 20 шагов история компактируется в одно резюме. Просто и работает.

Цифры, которые говорят сами за себя

Webwright тестировали на двух бенчмарках.

На Odysseys — бенчмарке для сложных долгосрочных веб-задач — GPT-5.4 в связке с Webwright достигает 60,1% против базовых 33,5% той же модели без фреймворка. Прирост почти вдвое — это не косметика, это смена парадигмы.

На Online-Mind2Web (300 задач по 136 популярным сайтам) результаты ещё более впечатляющие: GPT-5.4 показывает 86,67% — лучший результат среди всех опенсорсных решений в категории AutoEval при бюджете в 100 шагов. Claude Opus 4.7 достигает 84,7% в общем зачёте, но обходит GPT-5.4 на сложных задачах при N=100: 80,5% против 76,6%.

Отдельный факт, который меня лично впечатляет: даже небольшая модель Qwen3.5-9B с инструментами Webwright показывает сильные результаты на сложном разделе Online-Mind2Web. Это означает, что фреймворк усиливает не только топовые модели — он масштабируется вниз.

Стоимость: $2,37 за задачу при использовании GPT-5.4. На выходе — переиспользуемый RPA-скрипт. Считайте это инвестицией, а не расходом.

Почему это важно для разработчиков и бизнеса

Классические веб-агенты хрупки: стоит сайту чуть изменить вёрстку — и агент теряется. Webwright обходит эту проблему через структурный доступ к DOM, ожидание условий и обработку динамического поведения (lazy loading, ре-рендеринг). Скрипты не зависят от пиксельных координат.

Для бизнеса это означает возможность один раз написать автоматизацию и переиспользовать её. Скрипт, созданный Webwright, можно запускать через CLI с аргументами — это уже полноценный RPA-инструмент, только созданный не программистом вручную, а агентом.

Фреймворк уже интегрируется с Claude Code, Codex, OpenClaw и Hermes через плагин-манифесты. Добавить Webwright в существующий агентный стек — вопрос одной команды.

Task2UI mode, добавленный 11 мая 2026 года, позволяет агенту не просто выполнить задачу, но и отрендерить результаты в HTML-приложение для просмотра и переиспользования. Это уже не автоматизация — это генерация интерфейсов на лету.

Мой взгляд: смена парадигмы или ещё один инструмент?

Честно говоря, Webwright — один из тех проектов, которые выглядят очевидными задним числом. «Дать агенту терминал» звучит банально, но до этого никто не доводил идею до рабочего состояния с такими бенчмарками.

Сравнение с конкурентами показательно: большинство фреймворков для веб-агентов (Browser Use, SWE-agent в веб-режиме, Browserbase) работают в парадигме «один шаг — одно действие». Webwright ломает этот принцип принципиально. И результаты говорят, что модели действительно готовы к такому уровню свободы — им просто не давали инструментов.

Для российских разработчиков: Webwright — это опенсорс на GitHub, доступен без ограничений. Для работы нужны API-ключи OpenAI, Anthropic или OpenRouter. С прямым доступом к OpenAI из РФ по-прежнему есть вопросы, но через OpenRouter или собственный прокси всё решаемо.

Эта информация подтверждена несколькими независимыми публикациями, включая официальный блог Microsoft Research и репозиторий проекта.

Microsoft Webwright: терминал вместо браузера — и GPT-5.4 взлетает до 60%

Когда «кликать» — уже не вариант

Что такое Webwright и почему это не очередной фреймворк

Как решаются главные инженерные проблемы

Цифры, которые говорят сами за себя

Почему это важно для разработчиков и бизнеса

Мой взгляд: смена парадигмы или ещё один инструмент?

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ZML из Парижа выпустила бесплатный движок LLMD для любых AI-чипов

Google прокачал Managed Agents: фоновые задачи, удалённый MCP и обновление токенов

Alibaba запрещает Claude Code: шпионаж или паранойя?