NVIDIA учит нейросети на 4 битах: прорыв, который удвоит скорость обучения

Когда четыре бита лучше восьми

Есть вещи, которые в мире ИИ принято считать незыблемыми. Одна из них — что серьёзное обучение больших языковых моделей требует как минимум FP8-точности. NVIDIA только что поставила этот постулат под сомнение. Исследовательская группа компании представила методологию предобучения на основе формата NVFP4 и провалидировала её на 12-миллиардной гибридной модели Mamba-Transformer, обученной на 10 триллионах токенов. По заявлению авторов — это самый длинный публично задокументированный тренировочный прогон в 4-битной точности на сегодняшний день.

Результат на бенчмарке MMLU-Pro (5-shot): 62.58% у NVFP4-модели против 62.62% у базовой FP8-модели. Разница в четыре сотых процента — это статистический шум, а не деградация качества.

Что такое NVFP4 и чем он отличается от конкурентов

FP4-форматы существуют не первый год — тот же MXFP4 давно в арсенале индустрии. Проблема стандартного подхода: блоки из 32 элементов с масштабирующим коэффициентом в формате UE8M0 (только степени двойки) дают слишком грубое покрытие динамического диапазона. Как только встречается выброс — точность рушится.

NVFP4 переосмысливает три ключевых параметра. Блок сжимается с 32 до 16 элементов — меньший диапазон на блок означает более точное масштабирование. Коэффициенты блоков переходят из UE8M0 в E4M3: вместо грубых степеней двойки появляется мантисса, и абсолютный максимум блока отображается значительно точнее. Наконец, добавляется второй уровень масштабирования — FP32-коэффициент на весь тензор, который удерживает E4M3-блоки в допустимом диапазоне.

Практический итог: как минимум 6.25% значений в каждом блоке (те самые пиковые значения) представлены с точностью, близкой к FP8, а всё остальное — в FP4. На архитектуре Blackwell это даёт 4× прирост пропускной способности GEMM относительно BF16 на GB200 и 6× на GB300, что транслируется в примерно 2–3× ускорение по сравнению с FP8. Объём операндной памяти сокращается примерно вдвое относительно FP8.

Четыре компонента, без которых ничего не работает

Наивное применение FP4 ко всем линейным слоям приводит к расхождению обучения уже на ранних стадиях. Команда NVIDIA разработала четырёхкомпонентную методологию, и абляционные исследования на 12B-модели показывают: каждый компонент необходим.

Селективная высокая точность. Первые два и последние восемь из 62 блоков модели (~16% всех линейных слоёв) остаются в BF16. Финальные блоки особенно чувствительны к динамическому диапазону — там FP4 просто не справляется.

Случайные преобразования Адамара (RHT). Выбросы в градиентах весов — главный враг стабильного обучения в низкой точности. Умножение входных тайлов на матрицу Адамара 16×16 с вектором случайных знаков ±1 размазывает выбросы в примерно гауссово распределение. Поскольку ортогональные преобразования взаимно уничтожаются внутри скалярного произведения, математической коррекции внутри GEMM не требуется. Размер d=16 выбран эмпирически: d=4 ухудшал сходимость, d=128 давал аналогичные результаты.

Двумерное масштабирование весов (2D weight scaling). Вместо одного масштабирующего коэффициента на строку или столбец — двумерная схема, лучше адаптирующаяся к реальной структуре весовых матриц.

Стохастическое округление градиентов. Вместо стандартного округления до ближайшего чётного — вероятностное, которое устраняет систематическое смещение, накапливающееся при низкоточной арифметике в ходе обратного распространения.

При этом сами веса модели, градиенты весов для аккумуляции между микробатчами и состояния оптимизатора хранятся в FP32 — компромисс оправданный: именно эти данные определяют качество обновлений.

Реальные цифры из production-экспериментов

Помимо флагманского 12B-эксперимента, отдельная серия тестов проводилась на моделях Llama 3 8B и внутренней Research-8B на 1 триллионе токенов через NVIDIA NeMo Megatron Bridge на GPU B200. Прирост пропускной способности составил до 1.59× относительно BF16, при этом точность на downstream-бенчмарках оказалась практически идентичной базовой линии. NVFP4 при этом требует селективных BF16-слоёв для стабильного схождения — что полностью согласуется с методологией из основного исследования.

Важный контекст: NVFP4 уже обкатывается в партнёрстве с AWS, Google Cloud, Microsoft AI, OpenAI, Mistral, Cohere, Kimi AI, Perplexity и Runway. Это не академический эксперимент в вакууме — индустрия активно тестирует формат в реальных условиях.

Что это меняет для рынка

Переход от FP8 к FP4 — это не просто ещё один шаг по шкале битности. Это потенциальный перелом в экономике обучения LLM. Если раньше обучение frontier-модели требовало огромных кластеров дорогих GPU, то вдвое меньший расход памяти и 2–3× ускорение вычислений означают, что тот же бюджет инфраструктуры позволяет обучить модель вдвое большего размера — или обучить ту же модель вдвое быстрее.

Для стартапов и mid-size компаний это особенно значимо: вместо дообучения чужих моделей появляется реальная возможность растить собственные foundation models с нуля. NVFP4 также заметно превосходит конкурирующий MXFP4 — по данным источников, для достижения сопоставимой точности ему требуется на 36% меньше обучающих данных.

Единственная оговорка: всё это работает только на архитектуре Blackwell (GB200, GB300). Владельцам предыдущих поколений GPU придётся подождать либо обновления железа, либо программных эмуляций — что нивелирует часть преимуществ.

Для российских разработчиков и исследователей: методология открыта через arXiv (препринт 2509.25149), NVIDIA Transformer Engine и NeMo Framework — инструментарий доступен без географических ограничений, хотя само железо Blackwell в РФ остаётся под санкционными ограничениями на поставку.

Информация о прорыве подтверждена несколькими независимыми публикациями, включая технические блоги NVIDIA и аналитические материалы специализированных изданий.

NVIDIA учит нейросети на 4 битах: прорыв, который удвоит скорость обучения

Когда четыре бита лучше восьми

Что такое NVFP4 и чем он отличается от конкурентов

Четыре компонента, без которых ничего не работает

Реальные цифры из production-экспериментов

Что это меняет для рынка

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Anthropic хочет создавать собственные лекарства с помощью ИИ

Nvidia стала венчурным банком: как чипмейкер финансирует свою монополию

Fable 5 и Mythos 5 от Anthropic вышли на мировой рынок после проверки Трампа