Microsoft Build 2026: обогнали Google в изображениях, догоняют в рассуждениях

Момент, которого ждали давно
Многие годы Microsoft была скорее дистрибьютором чужого ИИ — OpenAI делала умные вещи, Microsoft их продавала. Build 2026 стал первой конференцией, где компания вышла на сцену как полноценный разработчик моделей. Семь собственных систем за один раз — это не просто анонс, это заявка на независимость.
Центральная фигура всего шоу — MAI-Thinking-1, первая reasoning-модель Microsoft. По словам главы направления ИИ Мустафы Сулеймана, это модель с триллионом параметров при 35 миллиардах активных и контекстным окном в 128 000 токенов. Архитектура заточена под многошаговые инструкции, длинные контексты и генерацию кода. Microsoft особо подчёркивает: модель обучена с нуля на чистых данных, без дистилляции из сторонних систем — явный укол в сторону тех, кто так делает.
Что на самом деле умеет MAI-Thinking-1
Внутренние сравнения Microsoft показывают, что MAI-Thinking-1 предпочтительнее Anthropic Sonnet 4.6 в слепых тестах. Звучит громко. Но независимые бенчмарки рисуют более прозаичную картину: по объективным метрикам модель находится примерно на уровне DeepSeek V3.2. Это хорошо — но не «лучший в классе». Для дебютной reasoning-модели от компании, которая ещё год назад полностью зависела от OpenAI, результат вполне достойный. Просто не надо путать маркетинговые нарративы с реальными цифрами.
При этом MAI-Thinking-1 — лишь верхушка айсберга. Вся линейка MAI насчитывает шесть дополнительных систем, каждая под конкретную задачу.
Шесть моделей для шести задач
MAI-Code-1-Flash — агентная модель для кодирования с 5 миллиардами параметров. Microsoft позиционирует её как аналог Anthropic Haiku, но дешевле в эксплуатации. Уже интегрирована в GitHub Copilot и Visual Studio Code.
MAI-Image-2.5 — генерация и редактирование изображений. Здесь Microsoft действительно добилась чего-то примечательного: модель занимает второе место на Arena-Score image benchmark, уступая только GPT-Image-2, но обходя Google Nano-Banana. Обогнать Google в визуальном ИИ — это не мелочь.
MAI-Transcribe-1.5 — транскрипция с поддержкой 43 языков, позиционируется как самая быстрая в классе.
MAI-Voice-2 — синтез речи на 15 языках с возможностью клонирования голоса из коротких образцов.
Все модели работают на единой инфраструктуре, обучались на одном датасете и проходили через унифицированный пайплайн оценки. Доступны через Azure Foundry, причём разработчики впервые получили возможность дообучать веса самостоятельно.
Frontier Tuning: дорогие модели по цене бюджетных
Отдельного внимания заслуживает новый метод настройки — Frontier Tuning. Идея простая и при этом элегантная: компании обучают модели не на синтетических примерах, а на реальных рабочих трассах — тех следах, которые агент оставляет внутри корпоративных систем. Это, по сути, обучение с подкреплением на живых бизнес-процессах.
Результаты впечатляют. В тестах модель MAI, настроенная для работы с Excel, достигла производительности GPT-5.4 при стоимости вычислений в десять раз меньше. McKinsey протестировал кастомизированную версию и получил наивысший win rate среди всех протестированных систем — опять же при затратах примерно в одну десятую от альтернатив. Если эти цифры подтвердятся независимыми аудиторами, Frontier Tuning может стать одной из самых значимых методологических новинок года.
Scout: агент, который всегда включён
Третий столп Build 2026 — категория агентов под названием Autopilots. Первый представитель — Microsoft Scout, построенный на платформе OpenClaw и интегрированный в Teams, Outlook, OneDrive и SharePoint.
Scout — это не чат-бот и не всплывающий помощник. Это постоянно работающий фоновый агент со своей идентичностью в системе Entra, изолированным исполнением и строго ограниченными правами доступа. Он координирует встречи между часовыми поясами, готовит брифинги, планирует дедлайны и сигнализирует о зависших решениях до того, как они превратятся в проблемы.
Компонент Work IQ строит контекстную память о том, как конкретный пользователь работает и что ставит в приоритет. Это не просто планировщик — это нечто вроде цифрового ассистента, который учится на вашем рабочем поведении.
Что ещё показали на Build
За рамками ИИ-моделей Microsoft анонсировала Majorana 2 — квантовый чип нового поколения с кубитами, которые по заявлению компании в 1000 раз надёжнее предшественника. Также появился Project Solara — операционная система на базе Android для устройств, запускающих ИИ-агентов. И отдельная аппаратная история: компактный Surface для разработчиков, ориентированных на работу с ИИ.
Что это значит для разработчиков и бизнеса
Для российской аудитории: модели доступны через Azure Foundry, доступ к которому в России ограничен — потребуется корпоративный аккаунт через партнёров Microsoft или зарубежная юрисдикция. Прямого потребительского доступа нет.
Для разработчиков по всему миру сигнал однозначный: Microsoft больше не просто реселлер чужих моделей. Возможность дообучать веса напрямую через Azure — это серьёзный аргумент для тех, кто строит продукты на корпоративных данных. Frontier Tuning при заявленных показателях эффективности может радикально изменить экономику enterprise-ИИ.
Для конкурентов — Google, Anthropic, OpenAI — это недвусмысленный сигнал: на рынке появился ещё один игрок с собственными моделями, собственной инфраструктурой и агрессивной ценовой политикой. Семь моделей за один день — это не экспериментирование. Это стратегия.
Информация подтверждена несколькими независимыми публикациями, освещавшими Build 2026.
Источники
Похожие новости
Claude Opus 4.8: тихий релиз, который меняет всё для AI-агентов
Anthropic выпустила Claude Opus 4.8 — и это не просто патч. Новая модель переписывает правила надёжности агентных систем: в 4 раза меньше молчаливых ошибок, скорость ×2.5 и цена втрое ниже.
GPT-5.5 и Codex теперь в AWS: OpenAI идёт к корпорациям
OpenAI открыла доступ к GPT-5.5, GPT-5.4 и Codex через Amazon Bedrock — по тем же ценам, что и на собственной платформе. Корпорации получают ИИ прямо в привычной инфраструктуре.
NVIDIA Cosmos 3: открытая омни-модель для физического ИИ и роботов
NVIDIA представила Cosmos 3 — первую полностью открытую омни-модель для физического ИИ, способную работать с текстом, видео, изображениями, звуком и действиями одновременно.