Nemotron Nano

Name: Nemotron Nano
Author: Nvidia

Открытая компактная reasoning-модель NVIDIA (Nemotron Nano 9B v2, август 2025): гибрид Mamba2-Transformer, контекст 128K на одной видеокарте A10G, переключаемый «режим размышления». До 6× быстрее Qwen3-8B при сопоставимой точности. Открытые веса под NVIDIA Open Model — бесплатный локальный запуск. Новейшее поколение линейки — Nemotron 3 Nano.

Бесплатно (открытые веса) / API у провайдеров ~$0.04 за 1MРаботает в РФ

⭐ 7.2/10📅 2025-08-18🏢 NvidiaProprietary

Открыть сайт

Рейтинг и бенчмарки

Общий рейтинг

7.2/10

Benchmark Score

7/10

Скорость

9.2/10

Архитектура

гибрид Mamba2-Transformer (всего 4 attention-слоя)

Контекст

128K на одной NVIDIA A10G (22 ГБ, bf16)

Скорость

до 6× throughput против Qwen3-8B в reasoning-режиме

Reasoning

переключаемый (/think · /no_think)

Входные и выходные данные

Входные данные

текст

Выходные данные

текст

API и стоимость

Входные токены (Input)

Бесплатно (открытые веса) / API у провайдеров ~$0.04 за 1M

цена за промпт

Выходные токены (Output)

Открытые веса — бесплатно при self-host; цена API зависит от провайдера

цена за ответ

✓API доступен

Документация API →

Способы доступа

Self-hosted (Hugging Face)API (NVIDIA NIM / build.nvidia.com)сторонние провайдеры (Together AI и др.)

Сценарии использования

локальный запуск на одной GPUагенты и инструментысуммаризация длинных документовкодингчат-боты на своём железе

Тарифы и подписки — Nvidia

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Открытые веса (self-host)

Бесплатно

Чекпойнты на Hugging Face (NVIDIA Open Model License)
Запуск на одной GPU — 128K контекст на A10G (22 ГБ)
Коммерческое использование разрешено
Опубликована и большая часть обучающих датасетов

Популярный

NVIDIA API Catalog

Free tier на build.nvidia.com

Попробовать модель без своего железа
Готовый NIM-эндпоинт
Развёртывание в своей инфраструктуре через NVIDIA NIM

Сторонние провайдеры

от ~$0.04 за 1M (зависит от провайдера)

Together AI, OpenRouter и другие хостят модель
Оплата за токены без своего GPU
OpenAI-совместимый API

Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы

Открытые веса под NVIDIA Open Model License — бесплатный запуск и коммерческое использование без подписок

Гибрид Mamba2-Transformer: всего 4 attention-слоя, остальное — быстрые Mamba-2/MLP — отсюда высокая пропускная способность

Контекст 128K помещается на одной видеокарте A10G (22 ГБ) в bf16 — большие документы без дата-центра

До 6× выше throughput, чем у Qwen3-8B, в reasoning-сценариях при сопоставимой точности

Переключаемый «режим размышления» (/think и /no_think) + контроль бюджета токенов на рассуждения — баланс скорость/качество под задачу

Работает в России без ограничений: открытые веса качаются с Hugging Face и запускаются локально, без аккаунтов и карт

✗ Минусы

Это компактная 9B-модель: по «потолку» качества уступает крупным фронтир-моделям (GPT, Claude, Gemini)

Новейшее поколение линейки — Nemotron 3 Nano (30B-A3B, мультимодальная); для свежих проектов смотрите и на неё

Оптимизирована под английский и код — русский понимает, но слабее специализированных русскоязычных моделей

Только текст: для изображений/видео/аудио есть отдельный вариант Nemotron Nano 2 VL и Nemotron 3 Nano Omni

Для локального запуска нужна GPU (≈A10G/22 ГБ под полный 128K-контекст) и техническая возня с инференсом

Дата знаний — сентябрь 2024: о более поздних событиях модель не знает

Подробный обзор

Что такое Nemotron Nano

Nemotron Nano — линейка компактных открытых моделей NVIDIA. Самая известная и ходовая её представительница — Nemotron Nano 9B v2, выпущенная 18 августа 2025 года. Это reasoning-модель на необычной архитектуре гибрид Mamba2-Transformer (дизайн Nemotron-H): вместо классического трансформера со множеством attention-слоёв здесь всего 4 attention-слоя, а основную работу делают быстрые слои Mamba-2 и MLP. Результат — заметно выше пропускная способность при сопоставимом качестве.

Чем интересна

Контекст 128K на одной видеокарте — инференс с полным окном помещается на NVIDIA A10G (22 ГБ, bf16); не нужен дата-центр
До 6× выше throughput, чем у Qwen3-8B в reasoning-сценариях (например, 8K вход / 16K выход) при сопоставимой точности
Переключаемое размышление — команды /think и /no_think плюс контроль бюджета токенов на рассуждения: можно гонять модель «думающей» на сложных задачах и «быстрой» на простых
Открытость — веса и большая часть обучающих датасетов (20+ трлн токенов) опубликованы; обучена в том числе на reasoning-трейсах DeepSeek R1, Qwen3-235B и Nemotron 4 340B

Место в линейке и статус

У Nano-семейства есть и мультимодальный вариант Nemotron Nano 2 VL (текст + изображения/видео), а новейшее поколение — Nemotron 3 Nano (30B с 3B активных параметров, MoE; есть Omni-версия с аудио и видео). Если нужна свежая мультимодальность — смотрите на Nemotron 3 Nano; если нужна максимально эффективная текстовая reasoning-модель, которая шустро крутится на одной GPU, — Nemotron Nano 9B v2 остаётся отличным выбором. Лицензия NVIDIA Open Model разрешает коммерческое использование.

Доступность в России

Модель работает в России без ограничений — это открытые веса: качаете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете локально через vLLM, TensorRT-LLM или NVIDIA NIM. Аккаунты, зарубежные карты и подписки для self-host не нужны. Если своего GPU нет — модель хостят сторонние провайдеры (Together AI, OpenRouter) с оплатой за токены; российские карты у них обычно не принимаются, но через агрегаторы с рублёвой оплатой доступ возможен. Промпты лучше писать на английском — модель оптимизирована под английский и код.

Часто задаваемые вопросы

Что такое Nemotron Nano?

Линейка компактных открытых моделей NVIDIA. Ключевая модель — Nemotron Nano 9B v2 (август 2025): reasoning-модель на 9B параметров с гибридной архитектурой Mamba2-Transformer. Главные плюсы — высокая скорость, контекст 128K на одной видеокарте и открытые веса под лицензией для коммерческого использования.

Что значит «гибрид Mamba2-Transformer»?

Вместо классического трансформера, где много слоёв внимания (attention), здесь их всего 4 — остальное делают слои Mamba-2 и MLP. Mamba обрабатывает последовательность линейно по длине, поэтому модель быстрее и экономнее по памяти на длинных контекстах. Отсюда до 6× выше пропускная способность против Qwen3-8B в reasoning-режиме.

Сколько стоит Nemotron Nano?

Сами веса бесплатны — это открытая модель под NVIDIA Open Model License, можно скачать с Hugging Face и запускать у себя, в том числе коммерчески. Платить нужно только если используете чужой хостинг: сторонние провайдеры (Together AI, OpenRouter) берут за токены (порядка $0.04 за 1M), а на NVIDIA build.nvidia.com есть бесплатный пробный доступ.

Что за «переключаемое размышление»?

Модель умеет работать в двух режимах: с цепочкой рассуждений (команда /think — точнее на сложных задачах) и без неё (/no_think — быстрее и дешевле на простых). Дополнительно можно задать «бюджет» токенов на размышление. Это позволяет под каждую задачу выбирать баланс скорость/качество, не меняя модель.

Какое железо нужно для запуска?

Полный контекст 128K помещается на одной NVIDIA A10G (22 ГБ памяти) в bf16 — это уровень одной серверной или мощной десктопной видеокарты. С квантизацией требования ниже. Если своей GPU нет, проще воспользоваться API на build.nvidia.com или у сторонних провайдеров.

Работает ли Nemotron Nano в России?

Да, без ограничений — это открытые веса для локального запуска: качаете с Hugging Face и запускаете через vLLM / TensorRT-LLM / NVIDIA NIM. Карты, аккаунты и VPN для самого запуска не нужны. Промпты лучше писать на английском — модель сильнее всего в английском и коде.

Nemotron Nano или Nemotron 3 Nano — что выбрать?

Nemotron Nano 9B v2 — максимально эффективная текстовая reasoning-модель, отлично крутится на одной GPU. Nemotron 3 Nano — новейшее поколение (30B с 3B активных, MoE), мультимодальное, с версией Omni (аудио/видео) и ещё длиннее контекст. Нужна свежая мультимодальность — берите 3 Nano; нужна лёгкая быстрая текстовая модель — 9B v2.