DiffusionGemma: Google DeepMind сломала монополию трансформеров

Конец эпохи «печатной машинки»?
Представьте, что все языковые модели последних пяти лет работают как печатная машинка: нажал клавишу — получил букву, нажал следующую — следующая. Именно так устроены GPT-4, Claude, Gemini, Llama и сотни других моделей. Они предсказывают один токен, добавляют его в контекст, предсказывают следующий — и так по кругу. Это называется авторегрессивной генерацией, и именно она стала основой всей современной LLM-индустрии.
Google DeepMind задала один вопрос, который почему-то почти никто не задавал вслух: а обязательно ли вообще так работать? Ответом стала DiffusionGemma — модель, которая генерирует текст принципиально иначе, через диффузию.
Что такое текстовая диффузия и почему это не просто маркетинг
Диффузионные модели мы все знаем по картинкам — Stable Diffusion, Midjourney, DALL-E. Там процесс работает так: берёшь зашумлённое изображение и постепенно «очищаешь» его, пока не получишь финальный результат. Ключевое отличие от трансформеров — модель видит всё сразу и итеративно уточняет весь вывод целиком, а не строит его слева направо.
Перенести эту идею на текст пытались уже несколько лет. Были MDLM, Plaid, различные masked diffusion подходы — но все они оставались академическими экспериментами. Ни один из них не дотягивал до уровня боевых трансформерных моделей по качеству, скорости или удобству использования.
DiffusionGemma меняет этот расклад. Это первая диффузионная текстовая модель от крупного ИИ-лаборатории, которую называют серьёзным конкурентом трансформерам — не в отдельных бенчмарках, а в целом как архитектурный подход.
Почему это важно именно сейчас
Мы находимся в интересной точке. Трансформерная архитектура, которую Google же и предложила в знаменитой статье «Attention Is All You Need» в 2017 году, упёрлась в несколько фундаментальных ограничений. Квадратичная сложность по длине контекста, невозможность пересмотреть уже сгенерированные токены, жёсткая последовательность вывода — всё это создаёт реальные проблемы при масштабировании.
Альтернативы появлялись: Mamba с линейными рекуррентными слоями, RWKV, различные гибриды — но ни одна из них не стала по-настоящему мейнстримной. Диффузия на тексте воспринималась как экзотика.
То, что именно DeepMind делает ставку на этот подход и выпускает модель под флагом Gemma — это сигнал индустрии. Не академическая статья, не стартап на $5 миллионов, а команда, которая делает Gemini.
Что это меняет технически
Диффузионный подход к тексту открывает несколько возможностей, которые авторегрессия принципиально закрывает.
Первое — возможность пересматривать и уточнять весь текст одновременно. Трансформер, написав слово в начале предложения, уже не может его изменить без полной перегенерации. Диффузионная модель итеративно уточняет весь вывод — как художник, который сначала набрасывает общий контур, потом добавляет детали везде сразу.
Второе — потенциально лучший контроль над структурой. Когда модель «видит» весь текст сразу, она может лучше управлять глобальной согласованностью — особенно важно для длинных документов, кода, структурированных форматов.
Третье — параллелизация вывода. Авторегрессия по природе последовательна: следующий токен зависит от предыдущего. Диффузия потенциально позволяет генерировать части текста параллельно, что может дать серьёзный выигрыш в скорости при правильной реализации.
Реальные вопросы, которые пока без ответа
При всём энтузиазме я бы не торопился хоронить трансформеры. У диффузионного подхода есть свои болезненные точки.
Скорость инференса пока остаётся открытым вопросом. Диффузионные модели требуют нескольких итераций для получения результата — для изображений это нормально, но для текстового чата задержка критична. Пользователь, привыкший к стримингу токенов в ChatGPT, вряд ли обрадуется ждать несколько секунд перед появлением ответа целиком.
Ещё один момент — качество на стандартных бенчмарках. Академические метрики вроде perplexity и MMLU затачивались под авторегрессивные модели. Как честно сравнивать принципиально разные архитектуры — вопрос методологически нетривиальный.
И главное: трансформеры за пять лет получили колоссальную оптимизацию — FlashAttention, KV-cache, speculative decoding, квантизация. DiffusionGemma стартует с чистого листа в плане инфраструктуры.
Что это значит для разработчиков и бизнеса
Если вы разработчик — следите за этим проектом внимательно, особенно если работаете с задачами, где важна структурная согласованность текста: генерация кода, юридические документы, технические спецификации. Именно здесь диффузионный подход может дать неожиданные преимущества.
Для бизнеса пока рано перестраивать стеки под новую архитектуру. Но если DiffusionGemma покажет конкурентные результаты на практических задачах в ближайшие месяцы — это изменит разговор о том, что вообще возможно в языковом моделировании.
Для российских пользователей: Gemma-модели традиционно доступны через Hugging Face и Google AI Studio. Прямой доступ к API из РФ требует VPN, оплата через зарубежные карты или сервисы-посредники. Сами веса модели, если DeepMind выложит их открыто по аналогии с предыдущими Gemma-релизами, будут доступны для скачивания без ограничений.
Мой вывод
DiffusionGemma — это не революция сегодня. Это сигнал о том, что самые серьёзные игроки в индустрии начинают по-настоящему инвестировать в пост-трансформерные архитектуры. Google в 2017 году изобрела трансформер. В 2026 году та же компания, возможно, делает первый реальный шаг к его замене.
История любит такие петли.
Источники
Похожие новости
DeepSeek привлёк $7,4 млрд при оценке $50 млрд: первые внешние деньги
Китайский ИИ-стартап DeepSeek впервые открылся для внешних инвесторов, собрав более 50 млрд юаней. Среди вкладчиков — Tencent и CATL, но голосовых прав они не получили.
Meta AI Mode в Facebook: ваши посты теперь обучают поисковик
Facebook запустил AI Mode — поисковый режим на основе ИИ, который формирует ответы из публичных постов пользователей. Это меняет правила игры в соцсети.
Salesforce покупает Fin за $3,6 млрд: ставка на ИИ-агентов в сервисе
Salesforce поглощает платформу клиентского сервиса Fin (бывший Intercom) за $3,6 млрд, чтобы усилить своего флагмана Agentforce мощными технологиями автономных агентов.