Microsoft солгала: MAI-модели обучены на нелицензированных данных

Красивые слова и некрасивая реальность
Когда крупная технологическая корпорация на сцене конференции заявляет, что её новые модели обучены на «enterprise grade, clean and commercially licensed data» — это звучит как конкурентное преимущество. Особенно на фоне бесконечных судебных исков против OpenAI, Anthropic и Google по поводу авторских прав. Microsoft, судя по всему, решила сыграть на этом страхе рынка — и проиграла, потому что собственная техническая документация всё рассказала сама.
На Build 2026 в Сан-Франциско Microsoft представила сразу несколько собственных языковых моделей: MAI-Thinking-1 — рассуждающую модель на 1 триллион параметров (активных — 35 миллиардов) и MAI-Code-1-Flash — специализированную кодинг-модель на 137 миллиардов параметров (активных — 5 миллиардов). Обе позиционировались как принципиально иной продукт: не дистилляция сторонних моделей, не данные из серых зон — а исключительно лицензированные источники.
И это было бы революцией. Если бы оказалось правдой.
Что нашли в техническом отчёте
Исследователь Саймон Уиллисон, присутствовавший на Build лично, первым обратил внимание на детали технического отчёта по MAI-Thinking-1 — начиная со страницы 80. Картина там нарисована вполне откровенная: 1,2 триллиона страниц были скачаны проприетарным краулером Microsoft, после фильтрации осталось 794 миллиарда страниц. Отдельно — 24,2 миллиарда страниц из Common Crawl, прошедших через тот же пайплайн дедупликации и очистки.
Common Crawl — это открытый архив интернета, который используют практически все крупные лаборатории. Он не является «коммерчески лицензированными данными». Это просто то, что лежало в открытом доступе и было скопировано.
Microsoft в документации описывает свой краулер как уважающий robots.txt и соответствующие мета-теги. Логика здесь примерно такая: если владелец сайта не заблокировал доступ — значит, согласен на использование своего контента для обучения ИИ. Это классическая позиция всей индустрии, и она остаётся юридически спорной. Суды в США до сих пор не дали окончательного ответа на вопрос о fair use применительно к обучению нейросетей.
Зачем вообще нужна была эта история с «чистыми данными»
Понять мотивацию Microsoft несложно. Компания давно ищет способ дифференцировать себя в переполненном рынке ИИ-моделей. До сих пор её главной ролью была инфраструктура Azure и инвестиции — 13 миллиардов долларов в OpenAI и 5 миллиардов в Anthropic. Теперь, когда оба партнёра готовятся к IPO (Anthropic уже подала конфиденциальную заявку 1 июня) и стремительно растут, Microsoft хочет играть на том же поле своими картами.
Собственные модели — это прямая экономия: можно запускать их на Azure без роялти третьим сторонам. CEO Мустафа Сулейман заявил, что после адаптации под нужды McKinsey MAI-модели превзошли GPT-5 при десятикратно меньших затратах. Это сильный аргумент для корпоративных клиентов.
Но корпоративный клиент — особенно в финансовом секторе, медицине, юриспруденции — очень чувствителен к вопросам лицензионной чистоты обучающих данных. Именно поэтому маркетинговое сообщение про «enterprise grade, clean and commercially licensed data» было таким соблазнительным. И именно поэтому его разоблачение бьёт больнее обычного.
MAI-Code-1-Flash: реальные возможности без прикрас
Несмотря на скандал с данными, сами модели заслуживают отдельного разговора. MAI-Code-1-Flash уже доступна в GitHub Copilot и Visual Studio Code. Это важно: Microsoft интегрировала модель в инструменты, которыми ежедневно пользуются десятки миллионов разработчиков по всему миру.
MAI-Thinking-1 пока находится в режиме закрытого превью через Microsoft Foundry — корпоративные клиенты могут подать заявку на тестирование. Модель позиционируется как эффективная по токенам, что напрямую влияет на стоимость API-вызовов.
По заявлению Microsoft, MAI-Thinking-1 предпочтительнее Claude Sonnet в слепых сравнениях — впечатляющее утверждение для модели с 35 миллиардами активных параметров. Для контекста: я регулярно запускаю модели такого размера локально на собственном железе. Если это правда, эффективность архитектуры действительно впечатляет.
Для российских пользователей
MAI-Code-1-Flash через GitHub Copilot технически доступна, но GitHub всё ещё требует оплаты через международные карты — Visa/Mastercard российского выпуска не принимаются. Виртуальные карты зарубежных сервисов или подписка через посредников остаются основным способом доступа. Microsoft Foundry с MAI-Thinking-1 в закрытом превью — вопрос отдельный, корпоративный доступ требует прямых переговоров с Microsoft.
Что это значит для индустрии
Эта история — симптом, а не исключение. Каждая крупная лаборатория обучала свои модели на данных из открытого интернета. Разница лишь в том, насколько честно они об этом говорят. OpenAI судится с New York Times. Anthropic — с рядом авторов. Google отбивается от нескольких исков одновременно.
Microsoft решила сыграть на контрасте — и проиграла, потому что собственный технический отчёт оказался честнее маркетинговых слайдов. Это, как ни странно, скорее хорошо: значит, инженерная культура компании ещё не полностью подчинена PR-департаменту.
Но осадок остаётся. Когда корпорация с капитализацией в несколько триллионов долларов позволяет себе такое расхождение между обещаниями и реальностью — это не случайность, а стратегический выбор. И рынку стоит это учитывать при следующем маркетинговом заявлении о «чистых данных».
Информация о несоответствии между заявлениями Microsoft и реальными данными обучения подтверждена несколькими независимыми публикациями, в том числе на основе анализа официального технического отчёта компании.
Похожие новости
Счёт пришёл: как ИИ-токены опустошают корпоративные бюджеты
Uber потратил весь ИИ-бюджет 2026 года к апрелю. Microsoft отозвал лицензии Claude Code. Индустрия переживает похмелье после токен-оргии.
ChatGPT теперь ведёт на вас настоящее досье: работа, хобби, путешествия
OpenAI обновила систему памяти Dreaming: вместо разрозненных заметок ChatGPT строит связный профиль пользователя и сам обновляет его после каждого разговора.
NVIDIA Nemotron 3 Ultra: 550B-параметровый монстр для долгих агентов
NVIDIA выпустила Nemotron 3 Ultra — открытую модель на 550B параметров, которая ускоряет работу ИИ-агентов в 5 раз и снижает стоимость задач на 30%.