NVIDIA Nemotron 3 Ultra: 550B-параметровый монстр для долгих агентов

Когда чат-боты вырастают во что-то большее
Помните, как два года назад мы восхищались тем, что GPT-4 может поддержать многоходовой диалог? Сегодня это выглядит как детский лепет. Современные ИИ-системы — это уже не болталки, а полноценные агенты: они планируют, вызывают инструменты, запускают под-агентов, обрабатывают результаты и снова думают. Часами. Без остановки. И вот здесь начинается настоящая головная боль для разработчиков.
НИВИДИА сегодня, 4 июня 2026 года, анонсировала Nemotron 3 Ultra — и это не просто очередная большая модель в портфеле компании. Это попытка решить конкретную инженерную проблему, которая мучает всех, кто строит production-агентов: как сделать так, чтобы долгосрочные задачи не съедали бюджет и не теряли цель на 50-м шаге рассуждений.
Что внутри: архитектура, а не маркетинг
Nemotron 3 Ultra — это Mixture-of-Experts модель на 550B параметров, но при инференсе активны только 55B из них. Это ключевой момент: огромная ёмкость при разумном вычислительном отпечатке. Для сравнения — Qwen3.5 от Alibaba имеет 397B параметров, Kimi K2.6 от Moonshot вообще заявляет триллион, а GLM 5.1 от Zhipu — 744B. NVIDIA же умудряется конкурировать с ними, активируя в 10-20 раз меньше параметров за раз.
Архитектурные решения здесь реально интересные. Во-первых, гибридные слои Mamba-Transformer — это не просто модное слово. Mamba-архитектура исторически хороша для длинных контекстов с линейной сложностью, а трансформеры дают точность на коротких зависимостях. Объединить их в одной модели — изящное решение проблемы длинного контекста. Nemotron 3 Ultra поддерживает контекст до 1 миллиона токенов с оценкой 95% на бенчмарке Ruler@1M. Для сравнения: GLM 5.1 и Kimi K2.6 упираются в потолок 256K.
Во-вторых, NVFP4 квантизация — формат, разработанный NVIDIA для своих же GPU. Это позволяет деплоить модель на широком спектре железа с пятикратным приростом throughput по сравнению с другими открытыми моделями сопоставимого класса. Пять раз — это не «немного быстрее», это другая лига.
В-третьих, LatentMoE — собственная система маршрутизации экспертов, и Multi-Token Prediction для ускорения генерации в многоходовых задачах. Последнее особенно важно: когда агент делает сотни вызовов, скорость каждого отдельного шага мультиплицируется.
Бенчмарки: честный взгляд
Посмотрим на цифры без розовых очков. На PinchBench (продуктивность агентов) Nemotron 3 Ultra набирает 91% — столько же, сколько Kimi K2.6, и больше, чем GLM 5.1 (84%) и Qwen3.5 (89%). Хорошо.
Но на Terminal-Bench 2.0 (кодинг в терминале) картина скромнее: 54% против 67% у Kimi K2.6 и 64% у GLM 5.1. Это честно — модель не претендует быть лучшим кодером в мире, её ниша — оркестрация.
Зато на IFBench (следование инструкциям) — 82%, что лучше всех конкурентов в таблице. И на Ruler@1M единственная из сравниваемых, кто вообще работает с таким контекстом.
Экономия токенов — отдельная история. На SWE-bench и Terminal-Bench 2.0 модель тратит на 30% меньше токенов на выполнение задач, чем сопоставимые модели. Для агентных систем, где каждый токен стоит денег, это не статистика — это реальные деньги.
Как NVIDIA обучала этого зверя
Методология обучения называется Multi-Teacher On-Policy Distillation — и это, пожалуй, самое интересное в истории. Вместо одного учителя модель обучалась на дистилляции от более чем десяти специализированных доменных моделей одновременно. Плюс полноценный RL-пайплайн поверх.
Практический эффект: модель получает «широкую» экспертизу — немного от лучшего кодера, немного от лучшего планировщика, немного от лучшего аналитика документов. И при этом остаётся единой моделью, а не ансамблем.
Важно и то, что NVIDIA открывает всё: веса, рецепты обучения, данные пайплайна. Это прямой ответ на политику Meta с Llama и попытка привлечь энтерпрайз-разработчиков, которым нужна полная прозрачность для комплаенса.
Для кого это и как получить
Nemotron 3 Ultra — это инструмент для серьёзных команд, строящих агентные системы. Одиночный разработчик, который хочет поиграть с новой моделью, вряд ли запустит 550B MoE у себя на ноутбуке. Но для корпоративного деплоя через NVIDIA NIM или облачных провайдеров — вполне рабочая история.
Для российских разработчиков: модель открытая, веса можно скачать с Hugging Face (потребуется VPN для стабильного доступа). Запустить локально — нужен серьёзный кластер GPU, минимум несколько H100. Через API облачных провайдеров — стандартные сложности с оплатой зарубежных сервисов. Но для команд, у которых есть своё железо на базе NVIDIA, это реальный вариант для production.
Мой вывод
Nemotron 3 Ultra — это не попытка NVIDIA сделать «лучшую модель в мире» по всем фронтам. Это целевое решение конкретной задачи: долгосрочные агенты, которые не разоряют компанию и не теряют нить рассуждений на часовых сессиях. И в этой нише — с миллионным контекстом, пятикратным throughput и 30% экономией токенов — аргументы выглядят убедительно.
Посмотрим, как модель покажет себя в реальных production-системах через пару месяцев. Бенчмарки — это хорошо, но агентные системы полны сюрпризов, которые ни один тест не предусмотрит.
Источники
Похожие новости
Gemma 4 12B: мультимодальный ИИ Google на обычном ноутбуке
Google DeepMind выпустила Gemma 4 12B — открытую модель с нативной обработкой текста, изображений и аудио, которая работает на ноутбуке с 16 ГБ RAM.
Claude Opus 4.8: тихий релиз, который меняет всё для AI-агентов
Anthropic выпустила Claude Opus 4.8 — и это не просто патч. Новая модель переписывает правила надёжности агентных систем: в 4 раза меньше молчаливых ошибок, скорость ×2.5 и цена втрое ниже.
Microsoft Build 2026: обогнали Google в изображениях, догоняют в рассуждениях
Microsoft представила семь собственных ИИ-моделей, включая первую reasoning-модель MAI-Thinking-1 и агента Scout — и впервые обошла Google в генерации изображений.