ИИ-поисковики притворяются: они гуглят то, что уже знают

Великий обман поисковых агентов

Представьте студента, который приходит на экзамен с доступом в интернет — но вместо поиска новых фактов просто листает сайты в поисках подтверждения того, что и так помнит. Именно так, судя по новому исследованию, работают лучшие AI-поисковые агенты планеты. И это не баг — это системная архитектурная проблема, о которой индустрия предпочитала молчать.

Исследователи из Харбинского политехнического университета совместно с командой Xiaohongshu опубликовали работу, которая ставит под сомнение всю текущую методологию оценки поисковых возможностей языковых моделей. Под прицелом оказались GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro и Kimi-K2.6 — то есть буквально весь цвет современного ИИ.

Бенчмарк, который лгал всем нам

BrowseComp от OpenAI долго считался золотым стандартом оценки поисковых агентов. Задания там действительно сложные: чтобы ответить, нужно пройти несколько шагов поиска, сопоставить данные из разных источников. Звучит честно. Но вот в чём загвоздка — со временем ответы на эти вопросы просачиваются в обучающие данные следующих поколений моделей. Модели буквально *запоминают правильные ответы* на тестовые вопросы.

Как это проверить? Элегантно просто: взять модели и отключить им доступ к интернету. Результаты оказались шокирующими. MiniMax M2.5 без какого-либо поиска решил 44.5% задач BrowseComp. Kimi K2.6 на китайской версии бенчмарка набрал 62% из памяти. Это не поисковые агенты — это энциклопедии, которые делают вид, что гуглят.

Поиск, который делает хуже

Но самый убийственный эксперимент — второй. Исследователи оставили интерфейс поиска включённым, но убрали из поискового индекса все документы, которые могли бы подтвердить ответ. Проще говоря: поиск работает, но нужной информации там нет.

Что произошло? Все модели показали результаты хуже, чем без инструментов вообще. MiniMax M2.5 рухнул с 44.5% до 8.0%. Kimi-K2.6 — с 25.5% до 2.3%. Это означает следующее: когда модель не находит подтверждения своей внутренней гипотезе, она начинает путаться и давать неверные ответы — хотя без поиска спокойно дала бы правильный.

Механизм понятен: агент формирует запрос исходя из того, что *думает* быть правдой, ищет подтверждение, не находит его и начинает сомневаться в собственной (верной!) интуиции. Это как если бы вы знали правильный ответ, но Google выдал бы вам противоречивые результаты — и вы в итоге написали бы неправильно.

Анализ поисковых путей добавляет деталей: более половины всех запросов агенты генерируют из собственных рассуждений, а не из найденных ранее фактов. И даже когда релевантные данные появляются в результатах — модели используют их менее чем в трети случаев. Петля замкнута на себе, а не на реальности.

LiveBrowseComp: наконец честный тест

В ответ на это исследователи создали LiveBrowseComp — бенчмарк из 335 вопросов, каждый из которых опирается на факты, появившиеся не ранее чем за 90 дней до создания вопроса. Источники — базы фильмов, каталоги игр, реестры уязвимостей CVE, сейсмологические каталоги. Намеренно выбираются *непопулярные* события — чтобы они не успели попасть в обучающие данные через новостные агрегаторы.

Люди справляются с LiveBrowseComp примерно так же, как с обычным BrowseComp — то есть вопросы объективно не сложнее. А вот модели в режиме без инструментов падают ниже 2% точности. Все. Поголовно. Рейтинги, которые выглядели убедительно на статичных бенчмарках, рассыпаются в пыль.

Что это значит для всего рынка

Для меня этот результат — не сюрприз, но очень важное формальное подтверждение давней интуиции. Гонка за лидерство в BrowseComp-подобных тестах превратилась в гонку за лучшую *меморизацию* тестовых ответов, а не за реальные поисковые способности. Это та же история, что с MMLU и GSM8K несколько лет назад — статичные бенчмарки умирают, как только становятся популярными.

Для бизнеса, который строит продукты на поисковых агентах — например, системы мониторинга новостей, юридического ресёрча или финансовой аналитики — это красный флаг. Ваш агент, скорее всего, отлично работает на «известных» темах и катастрофически теряется, когда нужно найти что-то действительно новое. Именно там, где он нужен больше всего.

Для российских пользователей и разработчиков ситуация усугубляется: большинство этих моделей либо недоступны напрямую без VPN, либо имеют ограниченный доступ к русскоязычному вебу. Если базовые поисковые способности агентов и так переоценены — то на русскоязычном контенте, который менее представлен в обучающих данных, разрыв между заявленным и реальным может быть ещё больше.

Индустрии пора взрослеть

Исследование из Харбина — это сигнал для всей отрасли: пора заменить статичные бенчмарки живыми, динамическими тестами с временны́м ограничением. LiveBrowseComp — хорошее начало, но нужны аналоги для разных языков и доменов.

Пока этого нет, следующий раз, когда вы увидите громкий заголовок «Наш агент достиг рекорда на BrowseComp» — вспомните студента с ноутбуком, который не гуглит, а просто делает вид.

ИИ-поисковики притворяются: они гуглят то, что уже знают

Великий обман поисковых агентов

Бенчмарк, который лгал всем нам

Поиск, который делает хуже

LiveBrowseComp: наконец честный тест

Что это значит для всего рынка

Индустрии пора взрослеть

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

OpenAI учит не мудрить: новый гид по промптам для всех

Отец обучения с подкреплением основал Oak Lab против «слабого» ИИ

Немецкий ИИ-консорциум выпустил Soofi S: открытая 30B модель бьёт все бенчмарки