Microsoft солгала: MAI-модели обучены на нелицензированных данных

Красивые слова и некрасивая реальность

Когда крупная технологическая корпорация на сцене конференции заявляет, что её новые модели обучены на «enterprise grade, clean and commercially licensed data» — это звучит как конкурентное преимущество. Особенно на фоне бесконечных судебных исков против OpenAI, Anthropic и Google по поводу авторских прав. Microsoft, судя по всему, решила сыграть на этом страхе рынка — и проиграла, потому что собственная техническая документация всё рассказала сама.

На Build 2026 в Сан-Франциско Microsoft представила сразу несколько собственных языковых моделей: MAI-Thinking-1 — рассуждающую модель на 1 триллион параметров (активных — 35 миллиардов) и MAI-Code-1-Flash — специализированную кодинг-модель на 137 миллиардов параметров (активных — 5 миллиардов). Обе позиционировались как принципиально иной продукт: не дистилляция сторонних моделей, не данные из серых зон — а исключительно лицензированные источники.

И это было бы революцией. Если бы оказалось правдой.

Что нашли в техническом отчёте

Исследователь Саймон Уиллисон, присутствовавший на Build лично, первым обратил внимание на детали технического отчёта по MAI-Thinking-1 — начиная со страницы 80. Картина там нарисована вполне откровенная: 1,2 триллиона страниц были скачаны проприетарным краулером Microsoft, после фильтрации осталось 794 миллиарда страниц. Отдельно — 24,2 миллиарда страниц из Common Crawl, прошедших через тот же пайплайн дедупликации и очистки.

Common Crawl — это открытый архив интернета, который используют практически все крупные лаборатории. Он не является «коммерчески лицензированными данными». Это просто то, что лежало в открытом доступе и было скопировано.

Microsoft в документации описывает свой краулер как уважающий robots.txt и соответствующие мета-теги. Логика здесь примерно такая: если владелец сайта не заблокировал доступ — значит, согласен на использование своего контента для обучения ИИ. Это классическая позиция всей индустрии, и она остаётся юридически спорной. Суды в США до сих пор не дали окончательного ответа на вопрос о fair use применительно к обучению нейросетей.

Зачем вообще нужна была эта история с «чистыми данными»

Понять мотивацию Microsoft несложно. Компания давно ищет способ дифференцировать себя в переполненном рынке ИИ-моделей. До сих пор её главной ролью была инфраструктура Azure и инвестиции — 13 миллиардов долларов в OpenAI и 5 миллиардов в Anthropic. Теперь, когда оба партнёра готовятся к IPO (Anthropic уже подала конфиденциальную заявку 1 июня) и стремительно растут, Microsoft хочет играть на том же поле своими картами.

Собственные модели — это прямая экономия: можно запускать их на Azure без роялти третьим сторонам. CEO Мустафа Сулейман заявил, что после адаптации под нужды McKinsey MAI-модели превзошли GPT-5 при десятикратно меньших затратах. Это сильный аргумент для корпоративных клиентов.

Но корпоративный клиент — особенно в финансовом секторе, медицине, юриспруденции — очень чувствителен к вопросам лицензионной чистоты обучающих данных. Именно поэтому маркетинговое сообщение про «enterprise grade, clean and commercially licensed data» было таким соблазнительным. И именно поэтому его разоблачение бьёт больнее обычного.

MAI-Code-1-Flash: реальные возможности без прикрас

Несмотря на скандал с данными, сами модели заслуживают отдельного разговора. MAI-Code-1-Flash уже доступна в GitHub Copilot и Visual Studio Code. Это важно: Microsoft интегрировала модель в инструменты, которыми ежедневно пользуются десятки миллионов разработчиков по всему миру.

MAI-Thinking-1 пока находится в режиме закрытого превью через Microsoft Foundry — корпоративные клиенты могут подать заявку на тестирование. Модель позиционируется как эффективная по токенам, что напрямую влияет на стоимость API-вызовов.

По заявлению Microsoft, MAI-Thinking-1 предпочтительнее Claude Sonnet в слепых сравнениях — впечатляющее утверждение для модели с 35 миллиардами активных параметров. Для контекста: я регулярно запускаю модели такого размера локально на собственном железе. Если это правда, эффективность архитектуры действительно впечатляет.

Для российских пользователей

MAI-Code-1-Flash через GitHub Copilot технически доступна, но GitHub всё ещё требует оплаты через международные карты — Visa/Mastercard российского выпуска не принимаются. Виртуальные карты зарубежных сервисов или подписка через посредников остаются основным способом доступа. Microsoft Foundry с MAI-Thinking-1 в закрытом превью — вопрос отдельный, корпоративный доступ требует прямых переговоров с Microsoft.

Что это значит для индустрии

Эта история — симптом, а не исключение. Каждая крупная лаборатория обучала свои модели на данных из открытого интернета. Разница лишь в том, насколько честно они об этом говорят. OpenAI судится с New York Times. Anthropic — с рядом авторов. Google отбивается от нескольких исков одновременно.

Microsoft решила сыграть на контрасте — и проиграла, потому что собственный технический отчёт оказался честнее маркетинговых слайдов. Это, как ни странно, скорее хорошо: значит, инженерная культура компании ещё не полностью подчинена PR-департаменту.

Но осадок остаётся. Когда корпорация с капитализацией в несколько триллионов долларов позволяет себе такое расхождение между обещаниями и реальностью — это не случайность, а стратегический выбор. И рынку стоит это учитывать при следующем маркетинговом заявлении о «чистых данных».

Информация о несоответствии между заявлениями Microsoft и реальными данными обучения подтверждена несколькими независимыми публикациями, в том числе на основе анализа официального технического отчёта компании.

Microsoft солгала: MAI-модели обучены на нелицензированных данных

Красивые слова и некрасивая реальность

Что нашли в техническом отчёте

Зачем вообще нужна была эта история с «чистыми данными»

MAI-Code-1-Flash: реальные возможности без прикрас

Для российских пользователей

Что это значит для индустрии

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Счёт пришёл: как ИИ-токены опустошают корпоративные бюджеты

ChatGPT теперь ведёт на вас настоящее досье: работа, хобби, путешествия

NVIDIA Nemotron 3 Ultra: 550B-параметровый монстр для долгих агентов