ИИ уверенно решает задачи без решения: новый бенчмарк SOOHAK

Когда уверенность хуже незнания
Есть такой тип студентов на экзамене: они не знают ответа, но пишут что-то с таким апломбом, что преподаватель почти верит. Оказывается, современные языковые модели — именно такие студенты. Новый математический бенчмарк SOOHAK поймал их на горячем: когда задача не имеет решения, модели не останавливаются — они продолжают уверенно выдавать числа.
Это не просто академическая проблема. Это сигнал о фундаментальном изъяне в том, как нынешние системы понимают (или не понимают) границы собственной компетентности.
Что такое SOOHAK и почему это серьёзно
Бенчмарк разработан совместными усилиями Carnegie Mellon University, EleutherAI и Seoul National University — и уже сам процесс создания заслуживает уважения. 64 математика: 38 профессоров, 25 аспирантов и постдоков, пятеро медалистов IMO. Все 439 задач написаны с нуля — никаких учебников, никаких олимпийских сборников. Каждый участник подтверждал, что не использовал ИИ при составлении. Тех, кто нарушил правило, выгоняли из проекта.
В эпоху, когда большинство бенчмарков уже давно просочились в обучающие данные, такой подход — почти революционный. Загрязнение тестовых данных — бич всей индустрии, и SOOHAK сделал всё возможное, чтобы его избежать.
Датасет делится на две части. Challenge — 340 задач уровня аспирантуры и передовых исследований. Refusal — 99 задач, намеренно содержащих противоречия или недостаточные условия. За вторую часть модель получает баллы только если обнаруживает и называет конкретный изъян — а не выдаёт «ответ».
Лидеры и аутсайдеры: цифры говорят сами за себя
На исследовательском уровне расклад такой: Gemini 3 Pro — 30%, GPT-5 — около 26%, Claude Opus 4.5 — всего 10%. Открытые модели — Kimi-2.5, Qwen3-235B, GPT-OSS-120B — держатся ниже 15%. 124 задачи из Challenge не решила ни одна модель вообще.
Для контекста: на более лёгком SOOHAK-Mini (олимпиадный и ранний университетский уровень) модели показывают себя вполне прилично и кучкуются близко друг к другу. Разрыв открывается именно на исследовательском уровне — и для открытых моделей он особенно болезненный. Авторы объясняют это тем, что открытые системы хуже обобщают на материал, которого не видели в обучении, особенно в узких научных нишах.
Но главная история — не про Challenge, а про Refusal.
Провал на «ложных» задачах
Ни одна модель не преодолела 50% на наборе с неразрешимыми задачами. Лучший результат показал открытый GLM-5 — чуть меньше 50%, обойдя и GPT-5, и Gemini 3 Pro. А семейство Qwen3 буквально рухнуло — меньше 3%: модели почти никогда не распознают сломанную задачу и продолжают «решать».
Это поразительно. Qwen3-235B — серьёзная модель с огромными вычислительными возможностями. Но она, судя по всему, натренирована на то, чтобы всегда давать ответ. Отказ от решения — это не то поведение, которое оптимизировалось при обучении.
Авторы бенчмарка прямо пишут: распознавание некорректных задач — «новая цель оптимизации, которую текущие модели напрямую не решают». Это важное признание. Мы годами оптимизировали модели на правильные ответы — и получили системы, которые не умеют говорить «задача поставлена неверно».
Масштаб не помогает — это критично
Самое тревожное наблюдение SOOHAK: увеличение вычислительных ресурсов и размера модели улучшает результаты на Challenge почти линейно, но не даёт никакого сопоставимого прироста на Refusal. Больше параметров — лучше решаешь задачи. Но не лучше признаёшь, что задача не имеет смысла.
Это разрушает надежду на то, что проблему можно просто «заскейлить». Нет, нельзя. Здесь нужно что-то принципиально другое — возможно, специальное обучение на примерах отказа, возможно, новые архитектурные решения для метакогниции.
Человек vs машина: один момент торжества
Для сравнения авторы привлекли 25 человек — от медалистов IMO до математиков с PhD. На выборке из 79 задач люди в совокупности решили 51%. И только Gemini 3 Pro превзошёл этот результат — 61% на том же наборе. Это, конечно, впечатляет. Но не забывайте: речь о совокупном покрытии разных групп, а не об одном человеке. Один медалист IMO в одиночку таких цифр не даст.
Что это значит на практике
Для разработчиков — сигнал тревоги. Если вы встраиваете языковую модель в любую систему, где возможны некорректные входные данные (а это почти любая реальная система), вы должны знать: модель, скорее всего, не скажет вам «что-то здесь не так». Она придумает ответ.
Для бизнеса — повод пересмотреть доверие к математическим и аналитическим агентам. Автоматизированные финансовые расчёты, научные пайплайны, инженерные симуляции — везде, где задача может быть сформулирована с ошибкой, модель будет уверенно идти не туда.
Для российских пользователей: Gemini 3 Pro в России по-прежнему требует VPN и недоступен напрямую через российские карты. GPT-5 — аналогичная история. Открытые модели вроде Qwen3 и GLM-5 доступны через Hugging Face или локальный деплой без ограничений, что делает GLM-5 с его неожиданно высоким результатом на Refusal особенно интересным вариантом для тех, кто работает с ненадёжными входными данными.
Итог: у нас нет ИИ, который умеет сомневаться
SOOHAK — не просто очередной бенчмарк в длинном списке. Это диагноз. Мы создали системы, которые умеют решать олимпийские задачи, но не умеют сказать «подождите, эта задача не имеет смысла». Уверенность без понимания границ — это не интеллект. Это имитация интеллекта, которая в критический момент подведёт.
Следующий фронтир — не более высокий процент на Challenge. Это научить модели честно говорить «не знаю» и «задача некорректна». Пока ни одна из них это не умеет по-настоящему.
Источники
Похожие новости
ИИ от OpenAI опроверг 80-летнюю гипотезу в геометрии
Модель OpenAI самостоятельно решила задачу о единичных расстояниях Эрдёша — одну из самых известных открытых проблем комбинаторной геометрии за последние 80 лет.
Gemini 3.5 Flash: быстрее, дешевле и умнее флагмана Google
Google представила Gemini 3.5 Flash на I/O 2026 — модель обходит собственный флагман на ключевых бенчмарках, работает в 4 раза быстрее и стоит вдвое дешевле.
Google выпустила Gemini 3.5: агентный ИИ, который работает в 4 раза быстрее конкурентов
На Google I/O представлена новая серия моделей Gemini 3.5 Flash — она обгоняет флагманские модели по скорости и агентным задачам, уже доступна разработчикам.