ИИ даёт правильный ответ, но ссылается на несуществующее место в документе

Правильный ответ — ещё не победа
Представьте ситуацию: вы загружаете в ИИ-систему стопку юридических документов, задаёте вопрос, получаете точный ответ с красивой ссылкой на конкретный абзац — и идёте в суд с этим аргументом. А потом выясняется, что тот абзац вообще не про это. Именно такой сценарий исследователи из Пекинского университета и Шанхайской лаборатории искусственного интеллекта решили измерить и задокументировать — и результаты оказались куда хуже, чем можно было ожидать.
Они назвали это явление «атрибуционной галлюцинацией» — ситуацией, когда модель выдаёт корректный ответ, но подкрепляет его ссылкой на совершенно другое место в документе. До этого исследования большинство бенчмарков просто не замечало проблемы: оценивался только итоговый ответ, а откуда модель его «взяла» — никого особо не интересовало.
Что такое CiteVQA и почему это важно
Для выявления этой проблемы команда создала бенчмарк CiteVQA — набор из 1 897 вопросов по 711 PDF-документам из семи предметных областей, включая документы на английском (451 шт.) и китайском (260 шт.) языках. Средний объём документа — 40,6 страницы, что существенно длиннее большинства тестовых наборов в индустрии.
Главное отличие от стандартных тестов типа DocVQA или MMLongBench-Doc: здесь мало дать правильный ответ. Модель обязана указать точный фрагмент в документе — конкретный абзац, таблицу или рисунок. Номер страницы не считается. Ключевая метрика называется Strict Attributed Accuracy (SAA): ноль баллов, если ответ верный, но цитата ведёт не туда.
Это принципиально иной подход к оценке. И он вскрывает неудобную правду о том, как на самом деле работают языковые модели с документами.
Результаты тестирования: даже лидеры проваливаются
По итогам тестирования 20 актуальных моделей лучшим оказался Gemini 3.1 Pro Preview с результатом 76 из 100 по строгой метрике. Звучит неплохо — пока не сравниваешь с тем, что модель показывает без требования цитирования.
Самый показательный пример — GPT-5: качество ответов без требования источников — 87,1 балла, но как только вводится условие правильной атрибуции, показатель падает до 59. Это разрыв в 28 пунктов. Грубо говоря, модель знает ответ, но не знает, откуда она его взяла — или притворяется, что знает.
С открытыми моделями всё значительно печальнее. Лучший open-source вариант — Qwen3-VL-235B-A22B — набрал лишь 22,5 балла. Большинство компактных открытых моделей не преодолели отметку в 10 баллов. Исследователи прямо называют их «крайне опасными» для применения в регулируемых отраслях. И я с этим полностью согласен.
Где конкретно ломается атрибуция
Интересно, что проблема не одинакова для всех типов задач. Серия Gemini 3 правильно находит нужную страницу в более чем 87% случаев — это реально сильный результат. Qwen3-VL-235B-A22B справляется лишь в 58% случаев.
Но стоит усложнить задачу — и даже лидеры начинают сыпаться. При работе с несколькими документами одновременно точность Gemini 3.1 Pro Preview падает с 69 до 55%. Академические статьи с аккуратной структурой дают лучшие результаты. Газеты и журналы с нестандартной вёрсткой ограничивают даже топовые модели потолком около 63 баллов.
Математические задачи работают относительно хорошо — логика вычислений сама по себе указывает на нужные данные. А вот когда модели нужно сначала найти элемент документа по цвету, положению или заголовку, а потом ещё и интерпретировать его — вот тут всё разваливается.
Главный вывод: поиск источника — это не про прозрачность
Самый неожиданный и ценный инсайт исследования — в том, что точное цитирование влияет не только на «честность» системы, но и напрямую на качество ответов. В экспериментах, где моделям специально подсовывали только релевантные страницы или нужный документ, результаты вырастали более чем на 13 пунктов даже у небольших моделей вроде Qwen3-VL-8B.
Другими словами: модель, которая умеет правильно находить источник, автоматически даёт более точные ответы. Это не просто вопрос прозрачности — это вопрос архитектурной зрелости системы.
Что это значит для практического применения
Для обычных пользователей, которые спрашивают ИИ о рецептах или планах поездок, атрибуционная галлюцинация — это просто раздражающий баг. Но в медицине, юриспруденции, финансовом аудите это уже вопрос профессиональной ответственности и потенциально огромных рисков.
Представьте медицинский ИИ, который правильно диагностирует состояние, но ссылается на неверный пункт протокола. Или юридическую систему, которая верно интерпретирует закон, но указывает на другую статью. Человек-эксперт, проверяющий результат, должен будет либо перепроверить всё вручную (тогда зачем ИИ?), либо довериться галлюцинирующей ссылке.
Для российских пользователей и бизнеса: Gemini 3.1 Pro Preview — лидер теста — доступен через API Google с VPN и международной картой. GPT-5 аналогично. Qwen3-VL как open-source можно развернуть локально, но его показатели в 22,5 балла говорят сами за себя — для серьёзных задач это пока не вариант.
Индустрия не готова к этой метрике
Мне кажется, что появление CiteVQA — это момент, когда индустрия ИИ столкнулась с вопросом, который давно избегала: «Докажи, что ты это не придумал». Большинство компаний строили маркетинг вокруг точности ответов, но молчали про точность источников.
Теперь, когда у нас есть конкретная метрика и конкретные числа, разрыв между «умным ответом» и «доказуемым ответом» стал очевиден. 76 баллов у лучшей модели — это не провал, но и не та надёжность, на которую можно опираться в критических сценариях без дополнительной верификации.
Следующий большой шаг для отрасли — научить модели не просто находить ответ, но и честно признаваться, когда они не могут его подтвердить документально. Пока до этого далеко.
Источники
Похожие новости
AlphaProof Nexus решил задачи Эрдёша за несколько сотен долларов
Google DeepMind создал ИИ-систему, которая автономно решила 9 открытых задач Эрдёша — некоторые не поддавались математикам 56 лет — потратив лишь несколько сотен долларов на каждую.
Copilot врёт о данных: ИИ подменяет анализ стереотипами
Математик скормил Copilot одинаковые данные под разными ярлыками — и ИИ уверенно описал несуществующие различия между странами. Режим Auto оказался ловушкой.
OpenAI теряет $1.22 на каждый заработанный доллар: убытки без прикрас
При выручке $5,7 млрд в первом квартале 2026 года OpenAI всё равно уходит в минус — скорректированная операционная маржа составила минус 122%. И это уже без учёта акционерных компенсаций.