ИИ провалил экзамен по реальной работе: 3% успеха на практике

Красивые цифры в лаборатории — и провал в офисе

Два года назад Сатья Наделла торжественно объявил, что ИИ вот-вот заменит белых воротничков — юристов, инвестиционных банкиров, аналитиков. С тех пор модели научились писать эссе, решать олимпиадные задачи и проходить тесты на уровне лучших студентов. Но когда исследователи решили проверить, как ИИ справляется с реальной офисной работой — не с учебными примерами, а с настоящим хаосом корпоративной жизни — картина оказалась удручающей.

Сразу два независимых исследования вышли практически одновременно и пришли к одному выводу: современные языковые модели катастрофически плохо справляются с тем, что люди делают каждый день на работе.

Что проверяли и как

Команда Artificial Analysis создала бенчмарк AA-Briefcase — набор из 91 задачи, имитирующей многонедельные рабочие проекты. Исходные данные намеренно разбросаны по тысячам фрагментированных файлов: переписка в Slack, электронные письма, записи встреч, массивные выгрузки данных. Именно так выглядит реальная корпоративная среда — не аккуратный датасет, а информационный мусор, из которого нужно собрать смысл.

Параллельно компания Mercor, специализирующаяся на обучающих данных, запустила бенчмарк APEX-Agents — задачи из реального консалтинга, инвестиционного банкинга и юриспруденции. Сценарии разрабатывали действующие профессионалы с маркетплейса Mercor, они же устанавливали планку правильного ответа.

Оба подхода объединяет одна идея: никакой академической стерильности. Только реальный рабочий контекст.

Цифры, от которых неловко

Результаты вышибают почву из-под ног у всех, кто верил маркетинговым презентациям ИИ-компаний.

По данным AA-Briefcase, лучшая модель в тесте — Claude Fable 5 от Anthropic — полностью выполняет все критерии лишь в 3% задач. Не 30%, не 15% — три процента. На 31 из 91 задачи ни одна модель не преодолела даже порог в 50% по критериям оценки.

APEX-Agents рисует чуть менее апокалиптическую, но всё равно безрадостную картину. Лучший результат показал Gemini 3 Flash с 24% точности при однократном ответе. GPT-5.2 взял второе место с 23%. Модели уровня Opus 4.5, Gemini 3 Pro и GPT-5 набрали около 18%. Для сравнения: профессионал-человек в своей области отвечает правильно в подавляющем большинстве случаев.

Почему умные модели всё равно ошибаются

Самое интересное в этих исследованиях — не сами провальные цифры, а анализ природы ошибок. Здесь прослеживается чёткая закономерность.

Слабые модели валятся на базовых вещах: пропускают нужные файлы, выдают неиспользуемые результаты, не могут структурировать запрос. Это понятные, грубые ошибки.

Сильные модели — и это куда тревожнее — ошибаются тихо и элегантно. Они выполняют очевидные требования задачи, но упускают детали, которые можно обнаружить только при сопоставлении информации из нескольких независимых источников. Именно это и есть суть настоящей интеллектуальной работы: не просто найти факт, а связать десяток разрозненных сигналов в единую картину.

Гендиректор Mercor Брендан Фуди сформулировал проблему точно: реальная работа не предполагает, что кто-то заботливо собрал весь контекст в одном месте. Ты одновременно работаешь со Slack, Google Drive, электронной почтой, внутренними базами данных — и должен удерживать всё это в голове, чтобы принять правильное решение.

Цена вопроса: 800-кратный разрыв

Отдельная история — стоимость работы разных моделей. По данным AA-Briefcase, разрыв в цене за одну задачу составляет более 800 раз: от примерно $0,04 за DeepSeek V4 Flash до более $31 за Claude Fable 5. При этом дорогой лидер решает лишь 3% задач полностью. Соотношение цена/качество в этом контексте выглядит, мягко говоря, дискуссионным.

Для бизнеса это принципиальный вопрос. Если вы платите в 800 раз больше, но получаете не в 800 раз лучший результат — экономика автоматизации рассыпается.

Что это означает для рынка

Оба бенчмарка опубликованы открыто — AA-Briefcase через Artificial Analysis, APEX-Agents на Hugging Face. Это прямой вызов лабораториям: докажите, что ваши модели действительно готовы к реальной работе.

Исторически ИИ-модели довольно быстро «взламывают» новые бенчмарки после публикации — но здесь ситуация сложнее. Проблема не в том, что нужно выучить правильные ответы. Проблема в архитектурном ограничении: модели плохо справляются с длинным контекстом, распределённым по множеству источников, с противоречивыми сигналами и с необходимостью удерживать цепочку рассуждений через десятки промежуточных шагов.

Для российских пользователей практический вывод такой: если вы используете ИИ-инструменты для серьёзной аналитической работы — юридической, финансовой, стратегической — текущие модели могут быть полезны как черновой помощник, но не как замена эксперта. Доступность большинства упомянутых моделей в РФ ограничена: Claude требует VPN и зарубежных платёжных средств, GPT-5.x — аналогично. Gemini доступен через Google с рядом ограничений. DeepSeek V4 Flash, показавший минимальную стоимость, доступен значительно свободнее.

Мой вывод

Я наблюдаю за развитием ИИ-бенчмарков уже несколько лет, и вижу чёткий паттерн: каждый раз, когда исследователи перестают тестировать модели на «чистых» условиях и добавляют реальную сложность — шум, фрагментацию, многоисточниковость — результаты обваливаются. Три процента полного успеха при лучшей модели на рынке — это не просто плохой результат. Это сигнал о том, что текущий подход к разработке ИИ оптимизирован не под реальную работу, а под впечатляющие показатели в лабораторных условиях.

Надя Надела подождёт ещё немного. Данные подтверждены несколькими независимыми публикациями.

ИИ провалил экзамен по реальной работе: 3% успеха на практике

Красивые цифры в лаборатории — и провал в офисе

Что проверяли и как

Цифры, от которых неловко

Почему умные модели всё равно ошибаются

Цена вопроса: 800-кратный разрыв

Что это означает для рынка

Мой вывод

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

GLM-5.2 обходит GPT-5.5: китайская открытая модель врывается в элиту

Соавтор «Attention Is All You Need» уходит из Google в OpenAI

ИИ-химик на GPT-5.4 улучшил ключевую реакцию в разработке лекарств