ИИ уверенно решает задачи без решения: новый бенчмарк SOOHAK

Когда уверенность хуже незнания

Есть такой тип студентов на экзамене: они не знают ответа, но пишут что-то с таким апломбом, что преподаватель почти верит. Оказывается, современные языковые модели — именно такие студенты. Новый математический бенчмарк SOOHAK поймал их на горячем: когда задача не имеет решения, модели не останавливаются — они продолжают уверенно выдавать числа.

Это не просто академическая проблема. Это сигнал о фундаментальном изъяне в том, как нынешние системы понимают (или не понимают) границы собственной компетентности.

Что такое SOOHAK и почему это серьёзно

Бенчмарк разработан совместными усилиями Carnegie Mellon University, EleutherAI и Seoul National University — и уже сам процесс создания заслуживает уважения. 64 математика: 38 профессоров, 25 аспирантов и постдоков, пятеро медалистов IMO. Все 439 задач написаны с нуля — никаких учебников, никаких олимпийских сборников. Каждый участник подтверждал, что не использовал ИИ при составлении. Тех, кто нарушил правило, выгоняли из проекта.

В эпоху, когда большинство бенчмарков уже давно просочились в обучающие данные, такой подход — почти революционный. Загрязнение тестовых данных — бич всей индустрии, и SOOHAK сделал всё возможное, чтобы его избежать.

Датасет делится на две части. Challenge — 340 задач уровня аспирантуры и передовых исследований. Refusal — 99 задач, намеренно содержащих противоречия или недостаточные условия. За вторую часть модель получает баллы только если обнаруживает и называет конкретный изъян — а не выдаёт «ответ».

Лидеры и аутсайдеры: цифры говорят сами за себя

На исследовательском уровне расклад такой: Gemini 3 Pro — 30%, GPT-5 — около 26%, Claude Opus 4.5 — всего 10%. Открытые модели — Kimi-2.5, Qwen3-235B, GPT-OSS-120B — держатся ниже 15%. 124 задачи из Challenge не решила ни одна модель вообще.

Для контекста: на более лёгком SOOHAK-Mini (олимпиадный и ранний университетский уровень) модели показывают себя вполне прилично и кучкуются близко друг к другу. Разрыв открывается именно на исследовательском уровне — и для открытых моделей он особенно болезненный. Авторы объясняют это тем, что открытые системы хуже обобщают на материал, которого не видели в обучении, особенно в узких научных нишах.

Но главная история — не про Challenge, а про Refusal.

Провал на «ложных» задачах

Ни одна модель не преодолела 50% на наборе с неразрешимыми задачами. Лучший результат показал открытый GLM-5 — чуть меньше 50%, обойдя и GPT-5, и Gemini 3 Pro. А семейство Qwen3 буквально рухнуло — меньше 3%: модели почти никогда не распознают сломанную задачу и продолжают «решать».

Это поразительно. Qwen3-235B — серьёзная модель с огромными вычислительными возможностями. Но она, судя по всему, натренирована на то, чтобы всегда давать ответ. Отказ от решения — это не то поведение, которое оптимизировалось при обучении.

Авторы бенчмарка прямо пишут: распознавание некорректных задач — «новая цель оптимизации, которую текущие модели напрямую не решают». Это важное признание. Мы годами оптимизировали модели на правильные ответы — и получили системы, которые не умеют говорить «задача поставлена неверно».

Масштаб не помогает — это критично

Самое тревожное наблюдение SOOHAK: увеличение вычислительных ресурсов и размера модели улучшает результаты на Challenge почти линейно, но не даёт никакого сопоставимого прироста на Refusal. Больше параметров — лучше решаешь задачи. Но не лучше признаёшь, что задача не имеет смысла.

Это разрушает надежду на то, что проблему можно просто «заскейлить». Нет, нельзя. Здесь нужно что-то принципиально другое — возможно, специальное обучение на примерах отказа, возможно, новые архитектурные решения для метакогниции.

Человек vs машина: один момент торжества

Для сравнения авторы привлекли 25 человек — от медалистов IMO до математиков с PhD. На выборке из 79 задач люди в совокупности решили 51%. И только Gemini 3 Pro превзошёл этот результат — 61% на том же наборе. Это, конечно, впечатляет. Но не забывайте: речь о совокупном покрытии разных групп, а не об одном человеке. Один медалист IMO в одиночку таких цифр не даст.

Что это значит на практике

Для разработчиков — сигнал тревоги. Если вы встраиваете языковую модель в любую систему, где возможны некорректные входные данные (а это почти любая реальная система), вы должны знать: модель, скорее всего, не скажет вам «что-то здесь не так». Она придумает ответ.

Для бизнеса — повод пересмотреть доверие к математическим и аналитическим агентам. Автоматизированные финансовые расчёты, научные пайплайны, инженерные симуляции — везде, где задача может быть сформулирована с ошибкой, модель будет уверенно идти не туда.

Для российских пользователей: Gemini 3 Pro в России по-прежнему требует VPN и недоступен напрямую через российские карты. GPT-5 — аналогичная история. Открытые модели вроде Qwen3 и GLM-5 доступны через Hugging Face или локальный деплой без ограничений, что делает GLM-5 с его неожиданно высоким результатом на Refusal особенно интересным вариантом для тех, кто работает с ненадёжными входными данными.

Итог: у нас нет ИИ, который умеет сомневаться

SOOHAK — не просто очередной бенчмарк в длинном списке. Это диагноз. Мы создали системы, которые умеют решать олимпийские задачи, но не умеют сказать «подождите, эта задача не имеет смысла». Уверенность без понимания границ — это не интеллект. Это имитация интеллекта, которая в критический момент подведёт.

Следующий фронтир — не более высокий процент на Challenge. Это научить модели честно говорить «не знаю» и «задача некорректна». Пока ни одна из них это не умеет по-настоящему.

ИИ уверенно решает задачи без решения: новый бенчмарк SOOHAK

Когда уверенность хуже незнания

Что такое SOOHAK и почему это серьёзно

Лидеры и аутсайдеры: цифры говорят сами за себя

Провал на «ложных» задачах

Масштаб не помогает — это критично

Человек vs машина: один момент торжества

Что это значит на практике

Итог: у нас нет ИИ, который умеет сомневаться

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Anthropic хочет создавать собственные лекарства с помощью ИИ

Nvidia стала венчурным банком: как чипмейкер финансирует свою монополию

Fable 5 и Mythos 5 от Anthropic вышли на мировой рынок после проверки Трампа