AlphaProof Nexus решил задачи Эрдёша за несколько сотен долларов

Полвека ожидания — и несколько сотен долларов
Представьте: математическая задача висит нерешённой с 1970 года. Поколения специалистов бились над ней, публиковали частичные результаты, выдвигали гипотезы. И вот приходит ИИ-агент — и закрывает вопрос за несколько сотен долларов вычислительного времени. Именно это сделал AlphaProof Nexus от Google DeepMind, и это не метафора прогресса — это буквальный факт, подтверждённый препринтом на arXiv от 21 мая 2026 года.
Система автономно решила 9 из 353 открытых задач Эрдёша, включая две, которые оставались без ответа 56 лет. Параллельно она доказала 44 из 492 открытых гипотез из Онлайн-энциклопедии целочисленных последовательностей (OEIS), закрыла 15-летний вопрос в алгебраической геометрии и улучшила известную оценку в выпуклой оптимизации. Всё это — при стоимости инференса в несколько сотен долларов за задачу.
Почему задачи Эрдёша — это не олимпиада
Пол Эрдёш — один из самых плодовитых математиков XX века, автор сотен открытых вопросов по комбинаторике, теории чисел и теории графов. Многие из этих задач он сопроводил личными денежными призами. Разница между олимпиадной задачей и задачей Эрдёша принципиальная: первая спроектирована так, чтобы талантливый человек мог решить её за несколько часов. Вторая может сопротивляться специалистам десятилетиями — без каких-либо гарантий, что решение вообще существует в обозримой форме.
Поэтому 2,5% решённых задач Эрдёша — это не скромный результат. Это качественный скачок от решения олимпийских задач (AlphaProof в 2024 году взял серебряный уровень на IMO) к настоящей исследовательской математике. Примерно то же самое, что перейти от игры в шахматы по правилам к разработке новой теории игр.
Архитектура: четыре агента и один сюрприз
AlphaProof Nexus построен на Gemini 3.1 Pro в связке с формальным верификатором Lean — языком программирования для математических доказательств. Принцип работы элегантен: языковая модель генерирует шаги доказательства, компилятор Lean проверяет каждый из них, сообщения об ошибках немедленно возвращаются в следующую итерацию. Люди подключаются только в самом конце для финальной проверки.
Система реализована в виде четырёх агентных вариантов:
- Агент A — базовый: LLM генерирует, Lean проверяет, цикл повторяется - Агент B — добавляет запросы к AlphaProof (система на основе обучения с подкреплением для олимпийской математики) - Агент C — вводит эволюционный компонент: суб-агенты делятся популяцией набросков доказательств, оцениваемых по системе Эло - Агент D — полная конфигурация со всеми возможностями
Но главный сюрприз обнаружился постфактум: простейший Агент A также смог доказать все девять задач Эрдёша — просто дороже на наиболее сложных из них. Исследователи объясняют это двумя факторами: быстрым улучшением базовых языковых моделей и «силой компиляторной обратной связи для заземления рассуждений LLM». Иными словами, жёсткий верификатор компенсирует слабости языковой модели в формальной логике.
Сравнение с OpenAI: разные философии верификации
За несколько дней до публикации DeepMind OpenAI также заявила о решении задачи Эрдёша — но с принципиально иным подходом, опирающимся на рассуждения на естественном языке. Это и есть ключевое различие двух стратегий.
Естественно-языковые доказательства звучат убедительно, но могут содержать скрытые ошибки: модель изобретает вспомогательные леммы вместо того, чтобы решать сложный фрагмент честно. Lean не прощает таких трюков — неподдержанное утверждение просто не компилируется. Это делает результаты AlphaProof Nexus машинно-верифицируемыми, а значит — бесспорными. Все формальные доказательства уже опубликованы в открытом репозитории на GitHub.
Что это значит за пределами математики
Здесь скрывается более широкий урок для индустрии. Исследователи DeepMind прямо указывают на «продолжающийся сдвиг от специализированных обученных систем к простым агентным циклам по мере роста возможностей LLM». Грубо говоря: завтра Агент A будет справляться с тем, на что сегодня нужен Агент D — просто потому что базовые модели становятся мощнее.
Для бизнеса это означает: лучшие ИИ-системы ближайших лет — не те, что говорят красивее всех, а те, что прикреплены к жёсткому верификатору. В разработке ПО это компилятор и тесты. В фармацевтике — лабораторный скрининг. В криптоиндустрии — формальная верификация смарт-контрактов и ZK-схем. Математика просто предоставляет наиболее чистый пример, где правильность можно проверить абсолютно точно.
Стоимость в несколько сотен долларов за задачу выглядит иначе, когда сравниваешь её с годами работы математика-исследователя. Экономика начинает меняться радикально.
Для российской аудитории
AlphaProof Nexus — исследовательская система, не публичный продукт. Доступа через API или веб-интерфейс нет. Препринт и репозиторий с доказательствами доступны на arXiv и GitHub без ограничений — их можно читать без VPN. Если DeepMind в будущем откроет исследовательский доступ, история с геоблокировкой типична для Google: российские аккаунты могут столкнуться с ограничениями, но академический контент традиционно остаётся открытым.
Система активно внедряется в реальные исследования — по данным авторов, уже применяется в комбинаторике, оптимизации, теории графов, алгебраической геометрии и квантовой оптике. Это не демонстрация на бенчмарке — это рабочий инструмент.
Информация о системе подтверждена несколькими независимыми публикациями, включая оригинальный препринт команды Google DeepMind.
Похожие новости
Copilot врёт о данных: ИИ подменяет анализ стереотипами
Математик скормил Copilot одинаковые данные под разными ярлыками — и ИИ уверенно описал несуществующие различия между странами. Режим Auto оказался ловушкой.
OpenAI теряет $1.22 на каждый заработанный доллар: убытки без прикрас
При выручке $5,7 млрд в первом квартале 2026 года OpenAI всё равно уходит в минус — скорректированная операционная маржа составила минус 122%. И это уже без учёта акционерных компенсаций.
Microsoft Fara1.5: браузерный ИИ-агент, который делает OpenAI Operator устаревшим
Microsoft Research выпустила семейство агентов Fara1.5 (4B/9B/27B), побивших OpenAI Operator и Gemini 2.5 на ключевом бенчмарке — 72% против 58%.