Baidu Unlimited OCR: десятки страниц за один проход без роста памяти

Конец эпохи «страница за страницей»

Есть проблемы в ИИ, которые все знают, но как-то принято считать неизбежными. Одна из них — то, что OCR-системы захлёбываются на длинных документах. Открываешь PDF на 50 страниц, и модель либо падает по памяти, либо молча нарезает его на куски и обрабатывает в цикле — страницу за страницей, теряя контекст на каждом шве. Baidu, судя по всему, решила, что так жить нельзя.

В конце июня 2026 года компания опубликовала открытую модель Unlimited OCR — и это не маркетинговое название ради красного словца. Модель действительно обрабатывает десятки страниц документа за один прямой проход, не прибегая к внешним планировщикам и циклам. При этом потребление памяти остаётся постоянным вне зависимости от длины документа.

Почему предыдущие системы упирались в потолок

Чтобы понять масштаб достижения, нужно разобраться, почему вообще существовал этот барьер. Современные end-to-end OCR-модели используют языковую модель в качестве декодера. При генерации каждый новый токен добавляется в KV-кэш — буфер, где хранятся ключи и значения всех предыдущих токенов. Чем длиннее документ, тем больше кэш, тем медленнее генерация, тем выше расход VRAM.

Практическое следствие: ни одна из существующих OCR-систем не обрабатывала более ~10 страниц за один инференс. Все обходили проблему через for-loop: распарсил страницу — сбросил кэш — перешёл к следующей. Семантическая связность между страницами при этом рвётся, а сама конструкция — это инженерный костыль, а не полноценное решение.

Человек, переписывающий книгу вручную

Baidu подошла к задаче через неожиданную аналогию. Когда человек переписывает книгу от руки, он не держит в голове всё, что написал раньше. Взгляд скользит по оригиналу, в рабочей памяти — последние несколько слов, и именно следующий символ требует внимания. Всё остальное — «мягко забывается».

Именно этот принцип лёг в основу Reference Sliding Window Attention (R-SWA) — ключевого нововведения Unlimited OCR. Механизм делит информацию на два типа: reference-токены (визуальные токены документа и промпт) и выходные токены. К reference-токенам модель обращается всегда и в полном объёме — это «оригинал книги перед глазами». Из выходных токенов хранятся только последние 128 — это «несколько только что написанных слов».

Всё, что старше этого окна, выталкивается из очереди. KV-кэш превращается в структуру фиксированного размера: `m + n`, где `m` — длина reference-части, `n` — ширина окна (128). Размер не растёт ни при 10 страницах, ни при 200. Именно поэтому латентность каждого шага генерации остаётся плоской — у DeepSeek OCR она ползёт вверх с каждым токеном, у Unlimited OCR — нет.

Отдельно важная деталь: визуальные токены намеренно исключены из механизма обновления состояний. В обычном скользящем окне визуальные признаки со временем «размываются». R-SWA кодирует их один раз и оставляет неизменными — что критично для качества распознавания на поздних страницах документа.

Архитектура: 3 миллиарда параметров, 500 миллионов в деле

Unlimited OCR строится поверх открытого DeepSeek OCR — не с нуля, а методом continue-training. Авторы сохранили DeepEncoder и MoE-декодер: 3 млрд параметров суммарно, из которых при инференсе активны лишь ~500 млн. Это и есть главный секрет эффективности.

DeepEncoder сжимает страницу размером 1024×1024 пикселей до 256 визуальных токенов через каскад SAM-ViT (оконное внимание) и CLIP-ViT (глобальное внимание) с 16-кратной компрессией на выходе. Поддерживаются два режима: Base — для многостраничных документов при фиксированном разрешении, Gundam — для одной страницы с динамическим разрешением.

Дообучение шло 4000 шагов на 8×16 GPU Nvidia A800. Датасет — около 2 млн образцов документов, разбитых в пропорции 9:1 между одностраничными и многостраничными. Многостраничные примеры создавались синтетически: одностраничные документы склеивались в последовательности от 2 до 50 страниц. DeepEncoder при обучении был заморожен — тренировался только декодер.

Цифры, которые говорят сами за себя

На бенчмарке OmniDocBench v1.5 Unlimited OCR набирает 93.23 балла — это +6.22 пункта к базовому DeepSeek OCR (87.01) и +4.06 к DeepSeek OCR 2 (89.17). На более свежей версии OmniDocBench v1.6 результат ещё выше — 93.92, лучший показатель в сравнительной таблице исследования.

По скорости: в режиме Base модель выдаёт 5580 токенов в секунду против 4951 TPS у DeepSeek OCR — прирост 12.7%. При увеличении длины вывода разрыв только растёт: при ограничении в 6000 токенов DeepSeek OCR отстаёт уже на 35%.

Модель доступна на Hugging Face под лицензией MIT, поддерживается в vLLM с готовым Docker-образом. Для запуска нужен GPU с поддержкой CUDA и параметр `trust_remote_code=True` при загрузке через Transformers.

Что это значит для рынка

Для разработчиков document-processing пайплайнов это меняет архитектурные решения фундаментально. Больше не нужно городить внешние оркестраторы, следить за сшивкой контекста между страницами и мириться с деградацией качества на длинных документах. Один вызов модели — полный документ.

Для бизнеса: юридические фирмы, страховые компании, архивы — все, кто работает с многостраничными PDF, получают инструмент, который раньше просто не существовал в open-source сегменте. Закрытые решения типа GPT-4o Vision обрабатывают документы, но с куда большими затратами на API и без гарантий конфиденциальности.

Любопытна и история происхождения. Технический отчёт Unlimited OCR упоминает DeepSeek OCR 40 раз — нетипично много для конкурентного сравнения. Авторы явно продолжают линию DeepSeek OCR, а не противопоставляют себя ей. Один решает проблему входа (сжатие визуальных токенов), другой — выхода (управление KV-кэшем при декодировании). Два звена одной цепи.

Я бы назвал Unlimited OCR одним из самых элегантных технических решений первой половины 2026 года: не переизобретение архитектуры с нуля, а точечная хирургия в узком месте — с результатом, который меняет то, что вообще возможно сделать с документами.

*Информация о модели подтверждена несколькими независимыми публикациями.*

Baidu Unlimited OCR: десятки страниц за один проход без роста памяти

Конец эпохи «страница за страницей»

Почему предыдущие системы упирались в потолок

Человек, переписывающий книгу вручную

Архитектура: 3 миллиарда параметров, 500 миллионов в деле

Цифры, которые говорят сами за себя

Что это значит для рынка

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ИИ-агенты не умеют задавать вопросы: новый бенчмарк DiscoBench

Anthropic хочет создавать собственные лекарства с помощью ИИ

Nvidia стала венчурным банком: как чипмейкер финансирует свою монополию