NVIDIA Blackwell сметает всё: абсолютная победа в MLPerf Training 6.0

Когда «победить» — это ещё мягко сказано

Есть победы, а есть разгромы. То, что NVIDIA устроила на MLPerf Training v6.0, — это второе. Компания не просто заняла первое место в нескольких категориях — она выиграла каждый отдельный бенчмарк, стала единственным участником, подавшим результаты по всем тестам без исключения, и при этом умудрилась показать рекордную производительность как в абсолютных числах, так и в пересчёте на один ускоритель. Это не победа в гонке — это ситуация, когда остальные участники ещё разминаются, а ты уже финишировал и пьёшь кофе.

Что такое MLPerf и почему это важно

MLPerf Training — это отраслевой стандарт от консорциума MLCommons, который честно измеряет, насколько быстро та или иная платформа обучает реальные модели. Это не синтетические тесты в вакууме — это конкретные задачи: обучение трансформеров, рекомендательных систем, детекторов объектов. Именно поэтому результаты MLPerf воспринимаются серьёзно: их нельзя «накрутить» маркетинговым трюком, нужно реально запустить код и показать время.

В этом раунде MLCommons добавил два новых бенчмарка, отражающих реальный ландшафт 2026 года: DeepSeek-V3 — гигантская модель на 671 миллиард параметров с архитектурой Mixture of Experts (MoE), которая лежит в основе популярного DeepSeek-R1, — и GPT-OSS-20B, компактная, но мощная MoE-модель. Именно здесь начинается самое интересное: NVIDIA оказалась единственной платформой, которая вообще подала результаты по обоим новым тестам. Конкуренты либо не успели, либо не рискнули.

Blackwell Ultra: железо, которое умеет в масштаб

Основной герой истории — система GB300 NVL72, объединяющая 72 GPU Blackwell Ultra и 36 процессоров Grace через NVLink и NVLink Switch в единое целое. Это не просто стойка серверов — это монолитная вычислительная машина, где между ускорителями нет традиционных узких мест PCIe. GB300 NVL72 получил увеличенный объём памяти и более высокий энергетический бюджет по сравнению с предыдущим GB200, что напрямую влияет на «локальность» модели — то есть насколько данные находятся рядом с вычислениями, а не гоняются по сети.

Но самое впечатляющее — масштаб облачных развёртываний. Партнёры NVIDIA из числа облачных провайдеров запускали кластеры из 8 192 GPU Blackwell, работающих синхронно в продакшн-датацентрах. Это не лабораторный эксперимент — это демонстрация того, что архитектура работает в реальных условиях гиперскейл-инфраструктуры.

Программная магия: откуда берётся 1.3x за три месяца

Вот что меня по-настоящему впечатляет в этих результатах: пропускная способность обучения DeepSeek-V3 выросла на 1.3x за три месяца без каких-либо изменений в железе. Только за счёт программных оптимизаций. Это говорит о зрелости инженерной культуры NVIDIA — команда не останавливается на релизе чипа.

Что конкретно изменилось? CUDA graphs теперь покрывают полные итерации обучения для MoE-моделей без «дропа» токенов. CuTe DSL позволил сделать kernel fusion там, где раньше приходилось терпеть накладные расходы. MXFP8 attention block снижает точность вычислений там, где это допустимо, экономя пропускную способность памяти. Плюс оптимизации роутера MoE и гибридного Expert Parallelism — это тонкая настройка того, как тысячи GPU договариваются между собой о том, какой эксперт обрабатывает какой токен.

Сетевая головоломка MoE-моделей

Одна из скрытых сложностей обучения MoE-моделей — это сетевой трафик. В отличие от плотных трансформеров, где данные движутся предсказуемо, MoE генерирует «взрывные» потоки с низкой энтропией: когда популярный «эксперт» нужен сотням GPU одновременно, традиционная ECMP-маршрутизация просто захлёбывается — все потоки сталкиваются на одних и тех же линках.

Rешение NVIDIA — Spectrum-X Ethernet с Advanced Adaptive Routing: трафик распределяется пакет-за-пакетом по всем доступным путям в реальном времени, а ConnectX SuperNIC на принимающей стороне собирает пакеты обратно в правильном порядке. В сочетании с механизмом контроля перегрузок это позволяет удерживать эффективную пропускную способность близко к теоретическому максимуму фабрики. Для сравнения: традиционный InfiniBand здесь тоже присутствует через Quantum — NVIDIA предлагает оба варианта в зависимости от требований заказчика.

Что это значит для рынка

Позиция конкурентов выглядит бледно. AMD с MI300X и MI325X присутствовала в предыдущих раундах MLPerf, но в этот раз не смогла охватить весь спектр тестов. Google с TPU v5 исторически хорошо выступает на своих задачах, но MoE-масштаб — не их конёк. Intel Gaudi продолжает бороться за релевантность. На фоне этого полный охват NVIDIA — включая новейшие MoE-бенчмарки — выглядит как стратегическое заявление: «мы готовы к тому, что будет завтра, прямо сегодня».

Для бизнеса это конкретная история. Если вы планируете обучать что-то сопоставимое с DeepSeek-V3 или хотите fine-tuning на GPT-класс моделей в разумные сроки — альтернатив Blackwell Ultra на рынке сейчас практически нет. Это монополия де-факто, подтверждённая независимым бенчмарком.

Российский контекст

Для российских компаний картина неоднозначная. Прямой доступ к GB300 NVL72 через официальные каналы закрыт из-за санкций — NVIDIA не поставляет высокопроизводительные ускорители в РФ. Облачный доступ через международных провайдеров (AWS, Azure, GCP) технически возможен с VPN и иностранными платёжными инструментами, но юридически и логистически сложен. Отечественные альтернативы — «Байкал», «Эльбрус» — находятся в совершенно другой весовой категории. Де-факто российские AI-компании либо работают на старом стоке H100/A100, либо используют облако через посредников.

Итог: гонка закончена?

MLPerf Training 6.0 — это не просто маркетинговая победа NVIDIA. Это документальное подтверждение того, что разрыв между лидером и остальными продолжает расти. Blackwell Ultra быстрее предшественника, программный стек зрелеет с каждым кварталом, а масштабируемость до 8K+ GPU в продакшн-условиях — это именно то, что нужно гиперскейл-заказчикам. Единственный вопрос, который остаётся открытым: когда кто-то из конкурентов наконец создаст реальную альтернативу — или рынок просто смирится с тем, что NVIDIA здесь надолго?

NVIDIA Blackwell сметает всё: абсолютная победа в MLPerf Training 6.0

Когда «победить» — это ещё мягко сказано

Что такое MLPerf и почему это важно

Blackwell Ultra: железо, которое умеет в масштаб

Программная магия: откуда берётся 1.3x за три месяца

Сетевая головоломка MoE-моделей

Что это значит для рынка

Российский контекст

Итог: гонка закончена?

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

OpenAI и Broadcom представили собственный чип Jalapeño для ИИ-инференса

OpenAI показала первый собственный чип: знакомьтесь, Jalapeño

Claude Tag в Slack: ИИ-коллега, который помнит всё за вас