Nemotron Nano
Открытая компактная reasoning-модель NVIDIA (Nemotron Nano 9B v2, август 2025): гибрид Mamba2-Transformer, контекст 128K на одной видеокарте A10G, переключаемый «режим размышления». До 6× быстрее Qwen3-8B при сопоставимой точности. Открытые веса под NVIDIA Open Model — бесплатный локальный запуск. Новейшее поколение линейки — Nemotron 3 Nano.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Nvidia
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Чекпойнты на Hugging Face (NVIDIA Open Model License)
- Запуск на одной GPU — 128K контекст на A10G (22 ГБ)
- Коммерческое использование разрешено
- Опубликована и большая часть обучающих датасетов
- Попробовать модель без своего железа
- Готовый NIM-эндпоинт
- Развёртывание в своей инфраструктуре через NVIDIA NIM
- Together AI, OpenRouter и другие хостят модель
- Оплата за токены без своего GPU
- OpenAI-совместимый API
Плюсы и минусы
Подробный обзор
Что такое Nemotron Nano
Nemotron Nano — линейка компактных открытых моделей NVIDIA. Самая известная и ходовая её представительница — Nemotron Nano 9B v2, выпущенная 18 августа 2025 года. Это reasoning-модель на необычной архитектуре гибрид Mamba2-Transformer (дизайн Nemotron-H): вместо классического трансформера со множеством attention-слоёв здесь всего 4 attention-слоя, а основную работу делают быстрые слои Mamba-2 и MLP. Результат — заметно выше пропускная способность при сопоставимом качестве.
Чем интересна
- Контекст 128K на одной видеокарте — инференс с полным окном помещается на NVIDIA A10G (22 ГБ, bf16); не нужен дата-центр
- До 6× выше throughput, чем у Qwen3-8B в reasoning-сценариях (например, 8K вход / 16K выход) при сопоставимой точности
- Переключаемое размышление — команды
/thinkи/no_thinkплюс контроль бюджета токенов на рассуждения: можно гонять модель «думающей» на сложных задачах и «быстрой» на простых - Открытость — веса и большая часть обучающих датасетов (20+ трлн токенов) опубликованы; обучена в том числе на reasoning-трейсах DeepSeek R1, Qwen3-235B и Nemotron 4 340B
Место в линейке и статус
У Nano-семейства есть и мультимодальный вариант Nemotron Nano 2 VL (текст + изображения/видео), а новейшее поколение — Nemotron 3 Nano (30B с 3B активных параметров, MoE; есть Omni-версия с аудио и видео). Если нужна свежая мультимодальность — смотрите на Nemotron 3 Nano; если нужна максимально эффективная текстовая reasoning-модель, которая шустро крутится на одной GPU, — Nemotron Nano 9B v2 остаётся отличным выбором. Лицензия NVIDIA Open Model разрешает коммерческое использование.
Доступность в России
Модель работает в России без ограничений — это открытые веса: качаете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете локально через vLLM, TensorRT-LLM или NVIDIA NIM. Аккаунты, зарубежные карты и подписки для self-host не нужны. Если своего GPU нет — модель хостят сторонние провайдеры (Together AI, OpenRouter) с оплатой за токены; российские карты у них обычно не принимаются, но через агрегаторы с рублёвой оплатой доступ возможен. Промпты лучше писать на английском — модель оптимизирована под английский и код.