NVIDIA учит нейросети на 4 битах: прорыв, который удвоит скорость обучения

Когда четыре бита лучше восьми
Есть вещи, которые в мире ИИ принято считать незыблемыми. Одна из них — что серьёзное обучение больших языковых моделей требует как минимум FP8-точности. NVIDIA только что поставила этот постулат под сомнение. Исследовательская группа компании представила методологию предобучения на основе формата NVFP4 и провалидировала её на 12-миллиардной гибридной модели Mamba-Transformer, обученной на 10 триллионах токенов. По заявлению авторов — это самый длинный публично задокументированный тренировочный прогон в 4-битной точности на сегодняшний день.
Результат на бенчмарке MMLU-Pro (5-shot): 62.58% у NVFP4-модели против 62.62% у базовой FP8-модели. Разница в четыре сотых процента — это статистический шум, а не деградация качества.
Что такое NVFP4 и чем он отличается от конкурентов
FP4-форматы существуют не первый год — тот же MXFP4 давно в арсенале индустрии. Проблема стандартного подхода: блоки из 32 элементов с масштабирующим коэффициентом в формате UE8M0 (только степени двойки) дают слишком грубое покрытие динамического диапазона. Как только встречается выброс — точность рушится.
NVFP4 переосмысливает три ключевых параметра. Блок сжимается с 32 до 16 элементов — меньший диапазон на блок означает более точное масштабирование. Коэффициенты блоков переходят из UE8M0 в E4M3: вместо грубых степеней двойки появляется мантисса, и абсолютный максимум блока отображается значительно точнее. Наконец, добавляется второй уровень масштабирования — FP32-коэффициент на весь тензор, который удерживает E4M3-блоки в допустимом диапазоне.
Практический итог: как минимум 6.25% значений в каждом блоке (те самые пиковые значения) представлены с точностью, близкой к FP8, а всё остальное — в FP4. На архитектуре Blackwell это даёт 4× прирост пропускной способности GEMM относительно BF16 на GB200 и 6× на GB300, что транслируется в примерно 2–3× ускорение по сравнению с FP8. Объём операндной памяти сокращается примерно вдвое относительно FP8.
Четыре компонента, без которых ничего не работает
Наивное применение FP4 ко всем линейным слоям приводит к расхождению обучения уже на ранних стадиях. Команда NVIDIA разработала четырёхкомпонентную методологию, и абляционные исследования на 12B-модели показывают: каждый компонент необходим.
Селективная высокая точность. Первые два и последние восемь из 62 блоков модели (~16% всех линейных слоёв) остаются в BF16. Финальные блоки особенно чувствительны к динамическому диапазону — там FP4 просто не справляется.
Случайные преобразования Адамара (RHT). Выбросы в градиентах весов — главный враг стабильного обучения в низкой точности. Умножение входных тайлов на матрицу Адамара 16×16 с вектором случайных знаков ±1 размазывает выбросы в примерно гауссово распределение. Поскольку ортогональные преобразования взаимно уничтожаются внутри скалярного произведения, математической коррекции внутри GEMM не требуется. Размер d=16 выбран эмпирически: d=4 ухудшал сходимость, d=128 давал аналогичные результаты.
Двумерное масштабирование весов (2D weight scaling). Вместо одного масштабирующего коэффициента на строку или столбец — двумерная схема, лучше адаптирующаяся к реальной структуре весовых матриц.
Стохастическое округление градиентов. Вместо стандартного округления до ближайшего чётного — вероятностное, которое устраняет систематическое смещение, накапливающееся при низкоточной арифметике в ходе обратного распространения.
При этом сами веса модели, градиенты весов для аккумуляции между микробатчами и состояния оптимизатора хранятся в FP32 — компромисс оправданный: именно эти данные определяют качество обновлений.
Реальные цифры из production-экспериментов
Помимо флагманского 12B-эксперимента, отдельная серия тестов проводилась на моделях Llama 3 8B и внутренней Research-8B на 1 триллионе токенов через NVIDIA NeMo Megatron Bridge на GPU B200. Прирост пропускной способности составил до 1.59× относительно BF16, при этом точность на downstream-бенчмарках оказалась практически идентичной базовой линии. NVFP4 при этом требует селективных BF16-слоёв для стабильного схождения — что полностью согласуется с методологией из основного исследования.
Важный контекст: NVFP4 уже обкатывается в партнёрстве с AWS, Google Cloud, Microsoft AI, OpenAI, Mistral, Cohere, Kimi AI, Perplexity и Runway. Это не академический эксперимент в вакууме — индустрия активно тестирует формат в реальных условиях.
Что это меняет для рынка
Переход от FP8 к FP4 — это не просто ещё один шаг по шкале битности. Это потенциальный перелом в экономике обучения LLM. Если раньше обучение frontier-модели требовало огромных кластеров дорогих GPU, то вдвое меньший расход памяти и 2–3× ускорение вычислений означают, что тот же бюджет инфраструктуры позволяет обучить модель вдвое большего размера — или обучить ту же модель вдвое быстрее.
Для стартапов и mid-size компаний это особенно значимо: вместо дообучения чужих моделей появляется реальная возможность растить собственные foundation models с нуля. NVFP4 также заметно превосходит конкурирующий MXFP4 — по данным источников, для достижения сопоставимой точности ему требуется на 36% меньше обучающих данных.
Единственная оговорка: всё это работает только на архитектуре Blackwell (GB200, GB300). Владельцам предыдущих поколений GPU придётся подождать либо обновления железа, либо программных эмуляций — что нивелирует часть преимуществ.
Для российских разработчиков и исследователей: методология открыта через arXiv (препринт 2509.25149), NVIDIA Transformer Engine и NeMo Framework — инструментарий доступен без географических ограничений, хотя само железо Blackwell в РФ остаётся под санкционными ограничениями на поставку.
Информация о прорыве подтверждена несколькими независимыми публикациями, включая технические блоги NVIDIA и аналитические материалы специализированных изданий.
Похожие новости
ИИ от OpenAI опроверг 80-летнюю гипотезу в геометрии
Модель OpenAI самостоятельно решила задачу о единичных расстояниях Эрдёша — одну из самых известных открытых проблем комбинаторной геометрии за последние 80 лет.
Gemini 3.5 Flash: быстрее, дешевле и умнее флагмана Google
Google представила Gemini 3.5 Flash на I/O 2026 — модель обходит собственный флагман на ключевых бенчмарках, работает в 4 раза быстрее и стоит вдвое дешевле.
Google выпустила Gemini 3.5: агентный ИИ, который работает в 4 раза быстрее конкурентов
На Google I/O представлена новая серия моделей Gemini 3.5 Flash — она обгоняет флагманские модели по скорости и агентным задачам, уже доступна разработчикам.