Copilot врёт о данных: ИИ подменяет анализ стереотипами

Когда ИИ «читает» данные, но видит только предрассудки

Представьте: вы отдаёте корпоративному ИИ-аналитику две стопки идентичных анкет, но на одной написано «США», на другой — «Великобритания». Нормальный аналитик скажет: «Слушай, это одно и то же». Copilot в режиме Auto скажет: «Американцы более бизнес-ориентированы, а британцы сдержаннее в эмоциях». И будет делать это с уверенностью дипломированного социолога.

Именно это обнаружил британский математик Адам Кухарски, и я честно скажу — результаты его эксперимента меня не удивили, но всё равно неприятно поразили своей наглядностью.

Эксперимент, который стоит знать каждому

Кухарски собрал 2 000 смоделированных текстовых ответов об эмоциях, пометил их как «UK», затем скопировал тот же массив и пометил как «US». Итого 4 000 записей, из которых половина — буквально зеркало другой. Перемешал и отдал Copilot на анализ.

Результат: инструмент выдал развёрнутый отчёт о том, как американцы и британцы по-разному выражают эмоции — «в тоне, интенсивности и стилистике». Детально, уверенно, профессионально. И полностью выдуманно.

Во втором раунде стало ещё интереснее. Кухарски взял 200 утверждений о карьерных целях и скопировал их пятикратно — для США, Великобритании, Франции, Германии и Италии. Copilot объявил, что итальянцы в три раза чаще интересуются карьерой в искусстве, чем британцы, а американцы в 1,5 раза более бизнес-ориентированы, чем французы. Все пять наборов данных были идентичны до последней запятой.

Когда Кухарски попросил Copilot провести более глубокий анализ, инструмент сначала сделал правильное: подсчитал ключевые слова и получил одинаковые цифры для всех стран. А потом... проигнорировал собственный вывод и выдал новый отчёт с «уточнёнными» процентами — такими же выдуманными.

Режим Auto — удобство, которое вас подводит

Вот где зарыта главная проблема. Microsoft позиционирует режим Auto как «умный выбор модели под задачу». На практике для задачи анализа текстовых данных он выбрал обычную языковую модель, которая вместо реального чтения файла воспроизвела встроенные культурные стереотипы.

Я сам повторил похожий тест с Google Gemini Flash 3.5 — поведение идентичное. Быстрые модели в режиме по умолчанию не утруждают себя реальным анализом: они имитируют его, опираясь на то, что «знают» о разных народах из обучающих данных. Gemini Flash и Copilot Auto в этом смысле одинаково ненадёжны.

А вот мыслящие модели (reasoning models) задачу решают корректно. Они замечают, что данные идентичны, и честно об этом сообщают. Но чтобы их задействовать, пользователь должен знать, что такие модели существуют, и уметь их включить. Большинство корпоративных пользователей Copilot на Microsoft 365 Business этого просто не делают — они работают с тем, что есть по умолчанию.

Почему это важнее, чем кажется

Речь идёт не об академическом курьёзе. Copilot встроен в рабочие процессы тысяч компаний. HR-аналитика, изучение обратной связи от клиентов, сравнение команд по регионам — всё это реальные сценарии, где подобный инструмент используется ежедневно.

Если ваш ИИ-аналитик систематически видит различия там, где их нет — и делает это убедительно, с процентами и выводами — вы получаете не инсайты, а оцифрованные предрассудки. Причём в красивой обёртке корпоративного отчёта.

Это особенно опасно в контексте найма, оценки сотрудников или анализа клиентских предпочтений по демографическим группам. Представьте отчёт, который «доказывает», что сотрудники из одной страны менее мотивированы — и при этом основан на идентичных данных.

Что делать прямо сейчас

Первое и главное: не доверяйте режиму Auto для аналитических задач. Это не значит, что он бесполезен — для генерации текста, суммаризации документов или помощи с кодом он работает нормально. Но как только вы просите инструмент сравнивать группы людей по данным — переключайтесь на reasoning-модель вручную.

В Copilot это означает явный выбор модели с поддержкой рассуждений. В Gemini — переход с Flash на более тяжёлые версии с включённым режимом думающей модели. В ChatGPT — это режим o3 или o4-mini вместо стандартного GPT-4o.

Второе: всегда проверяйте, действительно ли ИИ читал ваши данные. Задайте контрольный вопрос — попросите посчитать что-то конкретное и сравните с тем, что вы знаете. Если цифры расходятся или инструмент «забывает» свои же подсчёты — перед вами галлюцинация, а не анализ.

Третье: для российских пользователей ситуация дополнительно осложняется. Copilot на Microsoft 365 доступен в РФ через корпоративные аккаунты, но с ограничениями — часть функций требует VPN, а полноценный доступ к последним моделям нестабилен. Gemini в России заблокирован без VPN. Из доступных альтернатив с reasoning-режимом — YandexGPT и GigaChat, хотя они пока значительно уступают в качестве рассуждений на сложных аналитических задачах.

Доверяй, но проверяй — особенно ИИ

История Кухарски — это не повод отказываться от ИИ-инструментов в аналитике. Это повод понять, как они устроены. Быстрые модели оптимизированы для скорости и правдоподобия ответа, а не для его точности. Они буквально «придумывают» убедительный вывод на основе культурных паттернов из обучающих данных — и делают это вместо реального чтения вашего файла.

Выбор модели по умолчанию — это не нейтральное решение. Это решение за вас, принятое командой продукта с оглядкой на скорость и стоимость вычислений, а не на точность вашего конкретного анализа. Пора брать управление в свои руки.

Copilot врёт о данных: ИИ подменяет анализ стереотипами

Когда ИИ «читает» данные, но видит только предрассудки

Эксперимент, который стоит знать каждому

Режим Auto — удобство, которое вас подводит

Почему это важнее, чем кажется

Что делать прямо сейчас

Доверяй, но проверяй — особенно ИИ

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Grok 4.5 против Claude Opus: SpaceXAI бьёт по ценам и скорости

MiniMax выпустит open-source модель на 2,7 триллиона параметров

Anthropic научилась читать внутренний монолог Claude — и это меняет всё