T
ИИ-чатDiscoBenchИИ-агентыпоисковые агентыбенчмаркLLM

ИИ-агенты не умеют задавать вопросы: новый бенчмарк DiscoBench

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
ИИ-агенты не умеют задавать вопросы: новый бенчмарк DiscoBench

Проблема не там, где все думали

Если вы когда-либо спрашивали ИИ-агента найти информацию о «том фильме с Томом Хэнксом про море» и получали уверенный, но совершенно не тот ответ — поздравляю, вы лично столкнулись с проблемой, которую наконец формализовали учёные. Команда исследователей из Tencent Hunyuan и Университета Цинхуа опубликовала бенчмарк DiscoBench, который бьёт прямо в болевую точку современных поисковых агентов: они не умеют признавать неопределённость и спрашивать пользователя, что именно тот имел в виду.

Это важнее, чем кажется. Отрасль годами оптимизировала скорость поиска, точность ранжирования, глубину многошаговых цепочек рассуждений — и почти не думала о том, что происходит, когда агент с первого шага берёт неверное допущение и уверенно несётся по ложному следу.

Как устроен DiscoBench

Бенчмарк содержит 211 задач с 463 точками неопределённости в одиннадцати тематических доменах — видеоигры, спорт, музыка, кино, наука, политика. Каждая задача разбита на чекпоинты. В каждом из них агент должен выбрать одно из трёх действий: продолжить поиск, задать уточняющий вопрос или дать ответ.

Авторы выделили четыре типа неопределённости, с которыми сталкиваются реальные пользователи. Первый — когда описание подходит сразу нескольким сущностям (одноимённые фильмы, однофамильцы, компании с похожими названиями). Второй — когда запрос привязан к конкретному времени или версии, но это не указано явно. Третий — когда критерии оценки или ранжирования допускают несколько интерпретаций. Четвёртый, самый коварный — когда в запросе содержится фактическая ошибка.

Датасет написан преимущественно на китайском языке, что отражает реальную поисковую среду, для которой он создавался. Поисковый движок — Tavily, симулятор пользователя — Gemini 3 Flash. Когда агент задаёт полезный уточняющий вопрос, симулятор выдаёт заготовленную подсказку, сужающую поиск.

Результаты: даже лучшие модели не дотягивают до 50%

Тестировалось 11 моделей, выпущенных за последние полгода: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro и Hunyuan 3.0 Preview.

Лучший результат показал Doubao Seed 2.0 Pro43,1% сквозной точности. За ним Gemini 3.1 Pro с 40,8% и Claude Opus 4.7 с 39,8%. Аутсайдеры — MiniMax M2.7 (16,1%) и Qwen3.6 Max (12,3%).

Здесь важен один контринтуитивный факт: больше поисковых запросов не означает лучший результат. Claude Opus 4.7 ищет чаще остальных, но это не помогает — модель всё равно уступает Gemini и Doubao. Когда агент угадывает вместо того чтобы уточнить, ошибка распространяется по всей цепочке рассуждений, и каждый следующий шаг лишь углубляет отклонение от правильного ответа.

Особенно показателен разрыв между пошаговой точностью и итоговым результатом. Claude Opus 4.7 правильно решает 57% отдельных чекпоинтов, но сквозная точность падает до 39,8%. Одна неразрешённая неопределённость в начале цепочки способна обрушить весь результат — это и есть главный вывод исследования.

Предупреждение в промпте не спасает

Авторы проверили и очевидный «патч»: что если явно сказать агенту в системном промпте следить за неопределённостью и задавать вопросы при малейших сомнениях? Этот «направляемый» режим показал некоторое улучшение, но не стал панацеей. Модели по-прежнему предпочитают продолжать поиск, а не признавать, что им нужна помощь пользователя.

Это симптом более глубокой проблемы, которую параллельно фиксируют другие исследования. Учёные из Калифорнийского университета в Риверсайде описывают явление «слепой целеустремлённости» (blind goal-directedness) — агенты настолько ориентированы на выполнение задачи, что не останавливаются оценить, правильно ли они её поняли. В среднем такие агенты совершали нежелательные действия в 80% случаев и причиняли реальный ущерб в 41% тестовых сценариев.

Почему это критично для реальных продуктов

Существующие бенчмарки — GAIA, BrowseComp — исходят из допущения, что запросы пользователей чёткие и полные. Реальность устроена иначе. Люди формулируют запросы небрежно, опускают контекст, путают детали. И именно в этом зазоре между «идеальным запросом» и «тем, что человек реально напечатал», живут самые болезненные провалы агентов.

Есть и смежная проблема, которую фиксируют отдельные исследования: многие агенты при отсутствии релевантных результатов поиска начинают опираться на параметрические знания из обучающей выборки. При этом, когда поиск не находит подтверждающих документов, модели показывают результаты хуже, чем без инструментов вообще — поиск буквально сбивает агента с верного ответа, который тот знал «из памяти».

Что это значит для разработчиков и пользователей

Для тех, кто строит продукты на основе поисковых агентов — это сигнал пересмотреть архитектуру диалога. Агент должен уметь не только искать, но и осознавать границы своей уверенности. Механизм уточняющих вопросов — не вежливость, а инженерная необходимость.

Для обычных пользователей практический вывод прост: если ИИ-агент уверенно выдаёт результат на расплывчатый запрос, не переспрашивая, — это не признак интеллекта, а признак потенциальной ошибки. Чем сложнее цепочка поиска, тем дороже обходится первоначальное недопонимание.

Работает ли DiscoBench как инструмент оценки для российских разработчиков? Бенчмарк — академический, доступен через ArXiv, никаких региональных ограничений нет. Tavily как поисковый движок требует API-ключа и доступен из РФ через стандартные методы.

Информация о бенчмарке подтверждена несколькими независимыми публикациями в профессиональных медиа и академических каналах.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости