iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5

Когда нейросеть думает не слева направо

Почти все языковые модели, которыми мы пользуемся каждый день — GPT, Claude, Gemini, Qwen — работают по одному принципу: предсказывают следующий токен, опираясь на предыдущие. Слово за словом, слева направо, линейно. Это называется авторегрессионным подходом, и он доминирует в индустрии уже несколько лет. Новая работа исследователей из Университета Жэньминь и ByteDance Seed ставит этот консенсус под серьёзное сомнение.

iLLaDA — это 8-миллиардная диффузионная языковая модель, обученная с нуля на 12 триллионах токенов. Вместо последовательной генерации она работает иначе: берёт последовательность «замаскированных» токенов-заглушек и итеративно восстанавливает их все параллельно, за несколько проходов. Механизм похож на то, как диффузионные модели для изображений вытаскивают картинку из шума — только здесь вместо пикселей слова, а вместо шума маски.

Ключевое архитектурное отличие — полностью двунаправленное внимание: каждая позиция в последовательности «видит» все остальные одновременно, а не только то, что было раньше. Это принципиально другая логика мышления модели.

Что показывают цифры

Результаты на базовом уровне впечатляют. iLLaDA-Base набирает в среднем 63,9 балла по набору стандартных бенчмарков — против 63,3 у Qwen2.5 7B. Разница небольшая, но сам факт того, что диффузионная модель, обученная с нуля, вообще может конкурировать с авторегрессионным флагманом — это уже заявка.

По отдельным тестам картина ещё интереснее. На BBH (тест рассуждений) iLLaDA набирает 71,3 балла против 63,9 у Qwen2.5 7B. На ARC-Challenge — 60,8 против 51,5. На MMLU — 74,8 против 71,9. То есть по трём из восьми ключевых бенчмарков диффузионная модель уверенно выигрывает.

Сравнение с другим диффузионным конкурентом — Dream 7B — также в пользу iLLaDA: 63,9 против 61,4 в среднем. Причём Dream 7B был дообучен на основе готового чекпоинта Qwen2.5, то есть стартовал с куда более сильной базы. iLLaDA же построена с нуля.

Прогресс по сравнению с предшественником LLaDA выглядит радикально: +21,6 пункта на BBH, +14,9 на ARC-Challenge. Обучение масштабировали с 2,3 до 12 триллионов токенов и добавили 25 миллиардов инструкционных токенов с файн-тюнингом на протяжении 12 эпох.

Где модель пока проигрывает

Честность авторов вызывает уважение. iLLaDA-Instruct набирает 67,1 балла, тогда как Qwen2.5 7B Instruct — 77,1. Разрыв в 10 пунктов — это много. Главная причина: у Qwen2.5 есть дополнительное обучение с подкреплением (RLHF/RLAIF), которого у iLLaDA пока нет. Авторы прямо называют это направлением будущей работы.

Ещё одна слабость, зафиксированная в приложении к статье: на сложных задачах instruct-версия иногда зацикливается в петлях рассуждений — повторяет одни и те же шаги, не выходя к ответу. Классическая проблема для моделей без RL-выравнивания.

На кодинге тоже не всё гладко. HumanEval: 50,0 у iLLaDA против 56,7 у Qwen2.5 7B. MBPP: 57,8 против 63,6. Dream 7B здесь немного впереди iLLaDA — видимо, наследие качественной авторегрессионной базы сказывается именно в структурированных задачах.

Контекст: ByteDance не одни в этой гонке

Важно понимать, что iLLaDA появляется не в вакууме. В июне 2026 года Google DeepMind выпустила DiffusionGemma — диффузионную модель на основе архитектуры Gemma 4 (25B параметров, mixture-of-experts). Та модель генерирует текст примерно в четыре раза быстрее за счёт диффузионного подхода, но проигрывает по качеству на MMLU и кодинге авторегрессионной Gemma 4 сопоставимого размера. Google сама рекомендует DiffusionGemma для сценариев с низкой задержкой, а не для задач, требующих максимального качества.

Подход двух компаний диаметрально противоположен: Google взяла готовую авторегрессионную базу и поменяла только метод генерации, получив скорость ценой качества. ByteDance обучила модель с нуля, сделав ставку на качество. Это разные философии, и обе заслуживают внимания.

Для разработчиков и исследователей хорошая новость: веса iLLaDA и код открыты на GitHub (репозиторий ML-GSAI/LLaDA). То есть это не просто академическая демонстрация — это реальный фундамент, на котором можно строить.

Что это значит для индустрии

Я слежу за диффузионными языковыми моделями несколько лет, и долгое время они выглядели как интересный академический эксперимент без практической перспективы. iLLaDA меняет этот нарратив. Когда модель, обученная с нуля без авторегрессионной «подпорки», выходит на уровень Qwen2.5 7B по базовым метрикам — это не эксперимент, это серьёзная заявка.

Диффузионные модели теоретически имеют преимущества там, где авторегрессионный подход структурно слаб: задачи обратного рассуждения, долгосрочное планирование, задачи где контекст важен со всех сторон одновременно. iLLaDA начинает превращать эти теоретические преимущества в измеримые результаты.

Для российских пользователей и разработчиков: модель доступна через открытый GitHub-репозиторий, никаких региональных ограничений нет — скачивай, запускай, экспериментируй. Для инференса на 8B модели потребуется видеокарта с 16–24 ГБ VRAM в зависимости от квантизации.

Ограничение масштаба — принципиальный вопрос. Все эксперименты проведены на 8B параметрах. Сохранится ли конкурентоспособность при масштабировании до 70B или 400B — открытый вопрос, который авторы честно оставляют для будущих работ. Если диффузионные модели масштабируются так же хорошо, как авторегрессионные — парадигма языкового моделирования может реально сдвинуться.

Информация о модели подтверждена несколькими независимыми публикациями.

iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5

Когда нейросеть думает не слева направо

Что показывают цифры

Где модель пока проигрывает

Контекст: ByteDance не одни в этой гонке

Что это значит для индустрии

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Белый дом тормозит GPT-5.6: почему вы не можете его попробовать

GPT-5.6 под контролем Вашингтона: доступ только с одобрения правительства США

NVIDIA Blackwell сметает всё: абсолютная победа в MLPerf Training 6.0