CEO-Bench: только 3 ИИ-модели не обанкротились за 500 дней

Когда ИИ садится в кресло CEO — и вылетает в трубу
Представьте: вы даёте ИИ миллион долларов, воображаемую компанию и 500 дней, чтобы не разориться. Казалось бы, для систем, которые пишут код, решают математические задачи и ведут переговоры — задача выполнимая. Реальность оказалась жёсткой: из всех протестированных моделей лишь три завершили симуляцию с положительным балансом. Остальные — банкроты. А победителем нередко выходила простая детерминированная эвристика без единой нейронной сети внутри.
Исследователи Принстонского университета разработали CEO-Bench — бенчмарк, который принципиально отличается от всего, что мы видели раньше. Никаких «реши задачу за один ход» и «ответь на вопрос по документу». Здесь агент управляет вымышленной SaaS-компанией NovaMind: стартовый капитал — $1 млн, клиентов — ноль, горизонт — 500 симулированных дней. Единственный критерий успеха — остаток на счёте в конце. Ушёл в минус хоть раз — игра окончена, банкротство.
Что именно нужно делать виртуальному CEO
Агент работает через Python API с 34 инструментами и базой данных из 19 таблиц. Он не просто отдаёт команды — он пишет собственный код, делает SQL-запросы, строит кастомные воркфлоу. Это принципиально важно: никакого «нажми кнопку», только полноценное программирование бизнес-логики.
На столе у виртуального CEO лежит всё то же, что и у реального: ценообразование и тарифные планы, распределение рекламного бюджета по каналам, R&D и качество продукта, инфраструктурные мощности, поддержка клиентов, многораундовые переговоры с корпоративными клиентами. Плюс — симулированная социальная сеть, где можно читать жалобы пользователей, следить за конкурентами и публиковать собственные посты.
Звучит как нормальная работа. Но дьявол — в задержках и скрытых переменных. Расходы бьют сразу. Выручка приходит только в даты выставления счётов. R&D-проект может занять недели, а его провал проявится через отток клиентов ещё позже. Удовлетворённость аудитории, готовность платить, минимальные ожидания по качеству — всё это скрыто. Агент вынужден реконструировать реальность по косвенным сигналам: отменам подписок, тикетам в поддержку, активности в соцсети. При этом симуляция моделирует 26 сегментов клиентов с индивидуальными бюджетами, чувствительностью к цене и ожиданиями — и всё это постоянно меняется.
Почему это принципиально другой класс задач
Авторы исследования апеллируют к знаменитому примеру: в 1997 году Apple была в 90 днях от банкротства. Стив Джобс нарисовал матрицу два на два — потребитель/профи, десктоп/портатив — и решил, что компания будет делать только четыре продукта. Из этого выросли iMac, iPod и iPhone. Это и есть «стратегический интеллект управления» — способность видеть всю систему целиком и принимать решения с долгосрочными последствиями в условиях неопределённости.
Современные ИИ-агенты великолепны в узких задачах: исправить баг, ответить по скрипту, выполнить веб-workflow. Там есть чёткая цель, короткое действие, быстрая обратная связь. CEO-Bench устроен ровно наоборот. И именно поэтому результаты такие удручающие.
Я слежу за развитием ИИ-агентов уже несколько лет, и этот бенчмарк попал точно в больное место. Мы научили модели решать задачи — но не управлять системами. Это разные когнитивные режимы. Первый — как спринт, второй — как марафон с туманом на всей дистанции.
Три победителя и один неловкий факт
Конкретные названия трёх «выживших» моделей исследователи раскрывают в полной версии работы, однако сам факт красноречив: из всего зоопарка современных флагманов — GPT-4o, Claude, Gemini, различных reasoning-моделей — большинство не справились с задачей, которую любой опытный менеджер продукта решил бы интуитивно.
Но самый болезненный момент — даже не это. Простая rule-based эвристика без ИИ обошла почти все языковые модели. Набор детерминированных правил вроде «если отток растёт — снизь цену, если кэш падает — урежь расходы» — и всё, этого хватило, чтобы переиграть нейросети стоимостью в миллиарды долларов. Это как проиграть шахматисту, который ходит по учебнику дебютов, не думая дальше третьего хода.
Для меня это сигнал: текущие архитектуры LLM плохо справляются с управлением состоянием на длинных горизонтах. Они «забывают» причинно-следственные цепочки, которые растянуты во времени. Принятое решение на день 50 аукнулось банкротством на день 300 — и модель не умеет удерживать эту связь.
Что это значит для индустрии
Для разработчиков агентных систем CEO-Bench — это зеркало. Все красивые демо с «автономными агентами, которые ведут бизнес» разбиваются о реальность долгосрочного планирования. Если вы строите продукт на основе LLM-агентов для задач с горизонтом больше нескольких часов — у вас проблема, которую пока никто не решил.
Для бизнеса сигнал такой же тревожный. Автоматизировать рутину — пожалуйста. Доверить агенту стратегическое управление ресурсами — пока рано. Не потому что ИИ «не умный», а потому что у него нет нужного типа интеллекта для этой задачи.
Для российской аудитории: сам бенчмарк — академический инструмент, доступный для изучения в открытых публикациях. Никаких VPN и зарубежных карт не нужно — читайте препринты на arXiv.
Princeton CEO-Bench — это не просто очередной тест. Это честный диагноз: мы построили блестящих тактиков и никудышных стратегов. Следующий рубеж ИИ — не скорость генерации токенов, а способность думать месяцами вперёд в условиях неполной информации. Судя по результатам, до этого рубежа ещё очень далеко.
Источники
Похожие новости
VibeThinker-3B: крошечная модель бьёт гигантов в математике
Трёхмиллиардная модель от Sina Weibo сравнялась с DeepSeek V3.2 и Kimi K2.5 на олимпийских задачах — при том что те в 333 раза больше. Секрет — не размер, а умная пост-тренировка.
iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5
ByteDance и Университет Жэньминь выпустили iLLaDA — 8B модель, генерирующую текст не токен за токеном, а сразу целыми последовательностями. На базовых бенчмарках она обходит Qwen2.5 7B.
Белый дом тормозит GPT-5.6: почему вы не можете его попробовать
OpenAI задержала релиз GPT-5.6 по требованию администрации Трампа — через две недели после того, как Anthropic был вынужден отключить свои топовые модели.