Nemotron Nano

Nemotron Nano

Открытая компактная reasoning-модель NVIDIA (Nemotron Nano 9B v2, август 2025): гибрид Mamba2-Transformer, контекст 128K на одной видеокарте A10G, переключаемый «режим размышления». До 6× быстрее Qwen3-8B при сопоставимой точности. Открытые веса под NVIDIA Open Model — бесплатный локальный запуск. Новейшее поколение линейки — Nemotron 3 Nano.

Бесплатно (открытые веса) / API у провайдеров ~$0.04 за 1MРаботает в РФ
7.2/10📅 2025-08-18🏢 NvidiaProprietary

Рейтинг и бенчмарки

Общий рейтинг
7.2/10
Benchmark Score
7/10
Скорость
9.2/10
Архитектура
гибрид Mamba2-Transformer (всего 4 attention-слоя)
Контекст
128K на одной NVIDIA A10G (22 ГБ, bf16)
Скорость
до 6× throughput против Qwen3-8B в reasoning-режиме
Reasoning
переключаемый (/think · /no_think)

Входные и выходные данные

Входные данные
текст
Выходные данные
текст

API и стоимость

Входные токены (Input)
Бесплатно (открытые веса) / API у провайдеров ~$0.04 за 1M
цена за промпт
Выходные токены (Output)
Открытые веса — бесплатно при self-host; цена API зависит от провайдера
цена за ответ
API доступен

Способы доступа

Self-hosted (Hugging Face)API (NVIDIA NIM / build.nvidia.com)сторонние провайдеры (Together AI и др.)

Сценарии использования

локальный запуск на одной GPUагенты и инструментысуммаризация длинных документовкодингчат-боты на своём железе

Тарифы и подписки — Nvidia

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Открытые веса (self-host)
Бесплатно
  • Чекпойнты на Hugging Face (NVIDIA Open Model License)
  • Запуск на одной GPU — 128K контекст на A10G (22 ГБ)
  • Коммерческое использование разрешено
  • Опубликована и большая часть обучающих датасетов
Популярный
NVIDIA API Catalog
Free tier на build.nvidia.com
  • Попробовать модель без своего железа
  • Готовый NIM-эндпоинт
  • Развёртывание в своей инфраструктуре через NVIDIA NIM
Сторонние провайдеры
от ~$0.04 за 1M (зависит от провайдера)
  • Together AI, OpenRouter и другие хостят модель
  • Оплата за токены без своего GPU
  • OpenAI-совместимый API
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Открытые веса под NVIDIA Open Model License — бесплатный запуск и коммерческое использование без подписок
Гибрид Mamba2-Transformer: всего 4 attention-слоя, остальное — быстрые Mamba-2/MLP — отсюда высокая пропускная способность
Контекст 128K помещается на одной видеокарте A10G (22 ГБ) в bf16 — большие документы без дата-центра
До 6× выше throughput, чем у Qwen3-8B, в reasoning-сценариях при сопоставимой точности
Переключаемый «режим размышления» (/think и /no_think) + контроль бюджета токенов на рассуждения — баланс скорость/качество под задачу
Работает в России без ограничений: открытые веса качаются с Hugging Face и запускаются локально, без аккаунтов и карт
✗ Минусы
Это компактная 9B-модель: по «потолку» качества уступает крупным фронтир-моделям (GPT, Claude, Gemini)
Новейшее поколение линейки — Nemotron 3 Nano (30B-A3B, мультимодальная); для свежих проектов смотрите и на неё
Оптимизирована под английский и код — русский понимает, но слабее специализированных русскоязычных моделей
Только текст: для изображений/видео/аудио есть отдельный вариант Nemotron Nano 2 VL и Nemotron 3 Nano Omni
Для локального запуска нужна GPU (≈A10G/22 ГБ под полный 128K-контекст) и техническая возня с инференсом
Дата знаний — сентябрь 2024: о более поздних событиях модель не знает

Подробный обзор

Что такое Nemotron Nano

Nemotron Nano — линейка компактных открытых моделей NVIDIA. Самая известная и ходовая её представительница — Nemotron Nano 9B v2, выпущенная 18 августа 2025 года. Это reasoning-модель на необычной архитектуре гибрид Mamba2-Transformer (дизайн Nemotron-H): вместо классического трансформера со множеством attention-слоёв здесь всего 4 attention-слоя, а основную работу делают быстрые слои Mamba-2 и MLP. Результат — заметно выше пропускная способность при сопоставимом качестве.

Чем интересна

  • Контекст 128K на одной видеокарте — инференс с полным окном помещается на NVIDIA A10G (22 ГБ, bf16); не нужен дата-центр
  • До 6× выше throughput, чем у Qwen3-8B в reasoning-сценариях (например, 8K вход / 16K выход) при сопоставимой точности
  • Переключаемое размышление — команды /think и /no_think плюс контроль бюджета токенов на рассуждения: можно гонять модель «думающей» на сложных задачах и «быстрой» на простых
  • Открытость — веса и большая часть обучающих датасетов (20+ трлн токенов) опубликованы; обучена в том числе на reasoning-трейсах DeepSeek R1, Qwen3-235B и Nemotron 4 340B

Место в линейке и статус

У Nano-семейства есть и мультимодальный вариант Nemotron Nano 2 VL (текст + изображения/видео), а новейшее поколение — Nemotron 3 Nano (30B с 3B активных параметров, MoE; есть Omni-версия с аудио и видео). Если нужна свежая мультимодальность — смотрите на Nemotron 3 Nano; если нужна максимально эффективная текстовая reasoning-модель, которая шустро крутится на одной GPU, — Nemotron Nano 9B v2 остаётся отличным выбором. Лицензия NVIDIA Open Model разрешает коммерческое использование.

Доступность в России

Модель работает в России без ограничений — это открытые веса: качаете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете локально через vLLM, TensorRT-LLM или NVIDIA NIM. Аккаунты, зарубежные карты и подписки для self-host не нужны. Если своего GPU нет — модель хостят сторонние провайдеры (Together AI, OpenRouter) с оплатой за токены; российские карты у них обычно не принимаются, но через агрегаторы с рублёвой оплатой доступ возможен. Промпты лучше писать на английском — модель оптимизирована под английский и код.

Часто задаваемые вопросы

Что такое Nemotron Nano?
Линейка компактных открытых моделей NVIDIA. Ключевая модель — Nemotron Nano 9B v2 (август 2025): reasoning-модель на 9B параметров с гибридной архитектурой Mamba2-Transformer. Главные плюсы — высокая скорость, контекст 128K на одной видеокарте и открытые веса под лицензией для коммерческого использования.
Что значит «гибрид Mamba2-Transformer»?
Вместо классического трансформера, где много слоёв внимания (attention), здесь их всего 4 — остальное делают слои Mamba-2 и MLP. Mamba обрабатывает последовательность линейно по длине, поэтому модель быстрее и экономнее по памяти на длинных контекстах. Отсюда до 6× выше пропускная способность против Qwen3-8B в reasoning-режиме.
Сколько стоит Nemotron Nano?
Сами веса бесплатны — это открытая модель под NVIDIA Open Model License, можно скачать с Hugging Face и запускать у себя, в том числе коммерчески. Платить нужно только если используете чужой хостинг: сторонние провайдеры (Together AI, OpenRouter) берут за токены (порядка $0.04 за 1M), а на NVIDIA build.nvidia.com есть бесплатный пробный доступ.
Что за «переключаемое размышление»?
Модель умеет работать в двух режимах: с цепочкой рассуждений (команда /think — точнее на сложных задачах) и без неё (/no_think — быстрее и дешевле на простых). Дополнительно можно задать «бюджет» токенов на размышление. Это позволяет под каждую задачу выбирать баланс скорость/качество, не меняя модель.
Какое железо нужно для запуска?
Полный контекст 128K помещается на одной NVIDIA A10G (22 ГБ памяти) в bf16 — это уровень одной серверной или мощной десктопной видеокарты. С квантизацией требования ниже. Если своей GPU нет, проще воспользоваться API на build.nvidia.com или у сторонних провайдеров.
Работает ли Nemotron Nano в России?
Да, без ограничений — это открытые веса для локального запуска: качаете с Hugging Face и запускаете через vLLM / TensorRT-LLM / NVIDIA NIM. Карты, аккаунты и VPN для самого запуска не нужны. Промпты лучше писать на английском — модель сильнее всего в английском и коде.
Nemotron Nano или Nemotron 3 Nano — что выбрать?
Nemotron Nano 9B v2 — максимально эффективная текстовая reasoning-модель, отлично крутится на одной GPU. Nemotron 3 Nano — новейшее поколение (30B с 3B активных, MoE), мультимодальное, с версией Omni (аудио/видео) и ещё длиннее контекст. Нужна свежая мультимодальность — берите 3 Nano; нужна лёгкая быстрая текстовая модель — 9B v2.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно