ИИ даёт правильный ответ, но ссылается на несуществующее место в документе

Правильный ответ — ещё не победа

Представьте ситуацию: вы загружаете в ИИ-систему стопку юридических документов, задаёте вопрос, получаете точный ответ с красивой ссылкой на конкретный абзац — и идёте в суд с этим аргументом. А потом выясняется, что тот абзац вообще не про это. Именно такой сценарий исследователи из Пекинского университета и Шанхайской лаборатории искусственного интеллекта решили измерить и задокументировать — и результаты оказались куда хуже, чем можно было ожидать.

Они назвали это явление «атрибуционной галлюцинацией» — ситуацией, когда модель выдаёт корректный ответ, но подкрепляет его ссылкой на совершенно другое место в документе. До этого исследования большинство бенчмарков просто не замечало проблемы: оценивался только итоговый ответ, а откуда модель его «взяла» — никого особо не интересовало.

Что такое CiteVQA и почему это важно

Для выявления этой проблемы команда создала бенчмарк CiteVQA — набор из 1 897 вопросов по 711 PDF-документам из семи предметных областей, включая документы на английском (451 шт.) и китайском (260 шт.) языках. Средний объём документа — 40,6 страницы, что существенно длиннее большинства тестовых наборов в индустрии.

Главное отличие от стандартных тестов типа DocVQA или MMLongBench-Doc: здесь мало дать правильный ответ. Модель обязана указать точный фрагмент в документе — конкретный абзац, таблицу или рисунок. Номер страницы не считается. Ключевая метрика называется Strict Attributed Accuracy (SAA): ноль баллов, если ответ верный, но цитата ведёт не туда.

Это принципиально иной подход к оценке. И он вскрывает неудобную правду о том, как на самом деле работают языковые модели с документами.

Результаты тестирования: даже лидеры проваливаются

По итогам тестирования 20 актуальных моделей лучшим оказался Gemini 3.1 Pro Preview с результатом 76 из 100 по строгой метрике. Звучит неплохо — пока не сравниваешь с тем, что модель показывает без требования цитирования.

Самый показательный пример — GPT-5: качество ответов без требования источников — 87,1 балла, но как только вводится условие правильной атрибуции, показатель падает до 59. Это разрыв в 28 пунктов. Грубо говоря, модель знает ответ, но не знает, откуда она его взяла — или притворяется, что знает.

С открытыми моделями всё значительно печальнее. Лучший open-source вариант — Qwen3-VL-235B-A22B — набрал лишь 22,5 балла. Большинство компактных открытых моделей не преодолели отметку в 10 баллов. Исследователи прямо называют их «крайне опасными» для применения в регулируемых отраслях. И я с этим полностью согласен.

Где конкретно ломается атрибуция

Интересно, что проблема не одинакова для всех типов задач. Серия Gemini 3 правильно находит нужную страницу в более чем 87% случаев — это реально сильный результат. Qwen3-VL-235B-A22B справляется лишь в 58% случаев.

Но стоит усложнить задачу — и даже лидеры начинают сыпаться. При работе с несколькими документами одновременно точность Gemini 3.1 Pro Preview падает с 69 до 55%. Академические статьи с аккуратной структурой дают лучшие результаты. Газеты и журналы с нестандартной вёрсткой ограничивают даже топовые модели потолком около 63 баллов.

Математические задачи работают относительно хорошо — логика вычислений сама по себе указывает на нужные данные. А вот когда модели нужно сначала найти элемент документа по цвету, положению или заголовку, а потом ещё и интерпретировать его — вот тут всё разваливается.

Главный вывод: поиск источника — это не про прозрачность

Самый неожиданный и ценный инсайт исследования — в том, что точное цитирование влияет не только на «честность» системы, но и напрямую на качество ответов. В экспериментах, где моделям специально подсовывали только релевантные страницы или нужный документ, результаты вырастали более чем на 13 пунктов даже у небольших моделей вроде Qwen3-VL-8B.

Другими словами: модель, которая умеет правильно находить источник, автоматически даёт более точные ответы. Это не просто вопрос прозрачности — это вопрос архитектурной зрелости системы.

Что это значит для практического применения

Для обычных пользователей, которые спрашивают ИИ о рецептах или планах поездок, атрибуционная галлюцинация — это просто раздражающий баг. Но в медицине, юриспруденции, финансовом аудите это уже вопрос профессиональной ответственности и потенциально огромных рисков.

Представьте медицинский ИИ, который правильно диагностирует состояние, но ссылается на неверный пункт протокола. Или юридическую систему, которая верно интерпретирует закон, но указывает на другую статью. Человек-эксперт, проверяющий результат, должен будет либо перепроверить всё вручную (тогда зачем ИИ?), либо довериться галлюцинирующей ссылке.

Для российских пользователей и бизнеса: Gemini 3.1 Pro Preview — лидер теста — доступен через API Google с VPN и международной картой. GPT-5 аналогично. Qwen3-VL как open-source можно развернуть локально, но его показатели в 22,5 балла говорят сами за себя — для серьёзных задач это пока не вариант.

Индустрия не готова к этой метрике

Мне кажется, что появление CiteVQA — это момент, когда индустрия ИИ столкнулась с вопросом, который давно избегала: «Докажи, что ты это не придумал». Большинство компаний строили маркетинг вокруг точности ответов, но молчали про точность источников.

Теперь, когда у нас есть конкретная метрика и конкретные числа, разрыв между «умным ответом» и «доказуемым ответом» стал очевиден. 76 баллов у лучшей модели — это не провал, но и не та надёжность, на которую можно опираться в критических сценариях без дополнительной верификации.

Следующий большой шаг для отрасли — научить модели не просто находить ответ, но и честно признаваться, когда они не могут его подтвердить документально. Пока до этого далеко.

ИИ даёт правильный ответ, но ссылается на несуществующее место в документе

Правильный ответ — ещё не победа

Что такое CiteVQA и почему это важно

Результаты тестирования: даже лидеры проваливаются

Где конкретно ломается атрибуция

Главный вывод: поиск источника — это не про прозрачность

Что это значит для практического применения

Индустрия не готова к этой метрике

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Meta Muse Spark 1.1: $4,25 за миллион токенов — OpenAI и Anthropic в панике

Grok 4.5 против Claude Opus: SpaceXAI бьёт по ценам и скорости

MiniMax выпустит open-source модель на 2,7 триллиона параметров