CEO-Bench: только 3 ИИ-модели не обанкротились за 500 дней

Когда ИИ садится в кресло CEO — и вылетает в трубу

Представьте: вы даёте ИИ миллион долларов, воображаемую компанию и 500 дней, чтобы не разориться. Казалось бы, для систем, которые пишут код, решают математические задачи и ведут переговоры — задача выполнимая. Реальность оказалась жёсткой: из всех протестированных моделей лишь три завершили симуляцию с положительным балансом. Остальные — банкроты. А победителем нередко выходила простая детерминированная эвристика без единой нейронной сети внутри.

Исследователи Принстонского университета разработали CEO-Bench — бенчмарк, который принципиально отличается от всего, что мы видели раньше. Никаких «реши задачу за один ход» и «ответь на вопрос по документу». Здесь агент управляет вымышленной SaaS-компанией NovaMind: стартовый капитал — $1 млн, клиентов — ноль, горизонт — 500 симулированных дней. Единственный критерий успеха — остаток на счёте в конце. Ушёл в минус хоть раз — игра окончена, банкротство.

Что именно нужно делать виртуальному CEO

Агент работает через Python API с 34 инструментами и базой данных из 19 таблиц. Он не просто отдаёт команды — он пишет собственный код, делает SQL-запросы, строит кастомные воркфлоу. Это принципиально важно: никакого «нажми кнопку», только полноценное программирование бизнес-логики.

На столе у виртуального CEO лежит всё то же, что и у реального: ценообразование и тарифные планы, распределение рекламного бюджета по каналам, R&D и качество продукта, инфраструктурные мощности, поддержка клиентов, многораундовые переговоры с корпоративными клиентами. Плюс — симулированная социальная сеть, где можно читать жалобы пользователей, следить за конкурентами и публиковать собственные посты.

Звучит как нормальная работа. Но дьявол — в задержках и скрытых переменных. Расходы бьют сразу. Выручка приходит только в даты выставления счётов. R&D-проект может занять недели, а его провал проявится через отток клиентов ещё позже. Удовлетворённость аудитории, готовность платить, минимальные ожидания по качеству — всё это скрыто. Агент вынужден реконструировать реальность по косвенным сигналам: отменам подписок, тикетам в поддержку, активности в соцсети. При этом симуляция моделирует 26 сегментов клиентов с индивидуальными бюджетами, чувствительностью к цене и ожиданиями — и всё это постоянно меняется.

Почему это принципиально другой класс задач

Авторы исследования апеллируют к знаменитому примеру: в 1997 году Apple была в 90 днях от банкротства. Стив Джобс нарисовал матрицу два на два — потребитель/профи, десктоп/портатив — и решил, что компания будет делать только четыре продукта. Из этого выросли iMac, iPod и iPhone. Это и есть «стратегический интеллект управления» — способность видеть всю систему целиком и принимать решения с долгосрочными последствиями в условиях неопределённости.

Современные ИИ-агенты великолепны в узких задачах: исправить баг, ответить по скрипту, выполнить веб-workflow. Там есть чёткая цель, короткое действие, быстрая обратная связь. CEO-Bench устроен ровно наоборот. И именно поэтому результаты такие удручающие.

Я слежу за развитием ИИ-агентов уже несколько лет, и этот бенчмарк попал точно в больное место. Мы научили модели решать задачи — но не управлять системами. Это разные когнитивные режимы. Первый — как спринт, второй — как марафон с туманом на всей дистанции.

Три победителя и один неловкий факт

Конкретные названия трёх «выживших» моделей исследователи раскрывают в полной версии работы, однако сам факт красноречив: из всего зоопарка современных флагманов — GPT-4o, Claude, Gemini, различных reasoning-моделей — большинство не справились с задачей, которую любой опытный менеджер продукта решил бы интуитивно.

Но самый болезненный момент — даже не это. Простая rule-based эвристика без ИИ обошла почти все языковые модели. Набор детерминированных правил вроде «если отток растёт — снизь цену, если кэш падает — урежь расходы» — и всё, этого хватило, чтобы переиграть нейросети стоимостью в миллиарды долларов. Это как проиграть шахматисту, который ходит по учебнику дебютов, не думая дальше третьего хода.

Для меня это сигнал: текущие архитектуры LLM плохо справляются с управлением состоянием на длинных горизонтах. Они «забывают» причинно-следственные цепочки, которые растянуты во времени. Принятое решение на день 50 аукнулось банкротством на день 300 — и модель не умеет удерживать эту связь.

Что это значит для индустрии

Для разработчиков агентных систем CEO-Bench — это зеркало. Все красивые демо с «автономными агентами, которые ведут бизнес» разбиваются о реальность долгосрочного планирования. Если вы строите продукт на основе LLM-агентов для задач с горизонтом больше нескольких часов — у вас проблема, которую пока никто не решил.

Для бизнеса сигнал такой же тревожный. Автоматизировать рутину — пожалуйста. Доверить агенту стратегическое управление ресурсами — пока рано. Не потому что ИИ «не умный», а потому что у него нет нужного типа интеллекта для этой задачи.

Для российской аудитории: сам бенчмарк — академический инструмент, доступный для изучения в открытых публикациях. Никаких VPN и зарубежных карт не нужно — читайте препринты на arXiv.

Princeton CEO-Bench — это не просто очередной тест. Это честный диагноз: мы построили блестящих тактиков и никудышных стратегов. Следующий рубеж ИИ — не скорость генерации токенов, а способность думать месяцами вперёд в условиях неполной информации. Судя по результатам, до этого рубежа ещё очень далеко.

CEO-Bench: только 3 ИИ-модели не обанкротились за 500 дней

Когда ИИ садится в кресло CEO — и вылетает в трубу

Что именно нужно делать виртуальному CEO

Почему это принципиально другой класс задач

Три победителя и один неловкий факт

Что это значит для индустрии

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

VibeThinker-3B: крошечная модель бьёт гигантов в математике

iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5

Белый дом тормозит GPT-5.6: почему вы не можете его попробовать