Nous Hermes 2

Nous Hermes 2

Open-source файнтюн Mixtral 8x7B от Nous Research, обученный методом DPO на 1M+ записях GPT-4. MoE-архитектура (46.7B total / 12.9B active), формат ChatML, веса Apache 2.0 — можно деплоить локально или через OpenRouter.

Бесплатно (self-host) / ~$0.5–1 за 1M токенов (OpenRouter)Работает в РФРусский язык
6/10📅 2024-01-15🏢 Nous Research✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
6/10
Benchmark Score
6.5/10
Скорость
8.5/10
MMLU
72.3%
HellaSwag
87.2%
ARC
71.4%
WinoGrande
82.6%
GSM8K
70.7%
TruthfulQA
54.5%
Average (HF)
73.1%

Входные и выходные данные

Входные данные
текст
Выходные данные
текст

API и стоимость

Входные токены (Input)
Бесплатно (self-host) / ~$0.5–1 за 1M токенов (OpenRouter)
цена за промпт
Выходные токены (Output)
~$0.50–1.00 / 1M токенов (через OpenRouter); self-host — бесплатно
цена за ответ
API доступен

Способы доступа

Self-hosted (HuggingFace)Ollamallama.cppOpenRouter API

Сценарии использования

локальный чат-ботролевые игры и сторителлинггенерация и анализ кодаfine-tuning под свою задачуon-premise развёртывание для приватных данных

Тарифы и подписки — Nous Research

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Популярный
Self-hosted (Open Source)
Бесплатно
  • Лицензия Apache 2.0 — коммерческое использование без отчислений
  • Веса на HuggingFace: NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO
  • Запуск через transformers, vLLM, llama.cpp, Ollama
  • GGUF-кванты от TheBloke для запуска на CPU и слабых GPU
  • Нужно от 28GB VRAM (Q4) до 94GB (fp16)
OpenRouter API
от $0.5 / 1M токенов
  • Готовый облачный API без своей инфраструктуры
  • Pay-per-token — платите только за реальное использование
  • OpenAI-совместимый интерфейс, легко интегрировать
  • Принимает оплату криптовалютой (для пользователей из РФ)
Together AI / Replicate
от ~$0.6 / 1M токенов
  • Альтернативные облачные хостинги модели
  • REST API, batch и streaming
  • Подходит для тестирования перед деплоем on-premise
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Лицензия Apache 2.0 — можно использовать коммерчески без отчислений, разворачивать на своих серверах и модифицировать
MoE-архитектура (8 экспертов × 7B): на каждом токене активны только 12.9B параметров — почти в 4× быстрее dense-модели такого же качества
Обучена через Direct Preference Optimization на 1M+ записей преимущественно от GPT-4 — хорошее соответствие инструкциям
Превосходит оригинальный Mixtral 8x7B Instruct по большинству бенчмарков (MMLU 72.3% vs 70.6%, ARC 71.4% vs 70.2%)
Формат ChatML с явными ролями system/user/assistant — удобно для агентных пайплайнов и steerability через системный промпт
Доступна и для локального деплоя (HuggingFace, Ollama, llama.cpp), и через OpenRouter API — не обязательно иметь GPU
✗ Минусы
Релиз январь 2024 — устарела по меркам 2026 года, у Nous Research уже есть Hermes 3 (август 2024), Hermes 4 (2025) и Hermes 4.3 (август 2025, 512K контекст)
Контекст всего 32K токенов — недостаточно для работы с большими документами (у современных моделей 200K+)
Для локального запуска нужно много VRAM: ~28GB в Q4-квантизации, ~94GB в fp16 — потребительские GPU не тянут
Качество на русском заметно ниже английского — модель обучена в основном на англоязычных данных
Нет официального бесплатного API от Nous Research — облачный доступ только через сторонние сервисы (OpenRouter, Together, Replicate)
Существенно отстаёт от современных открытых моделей (Llama 3.3, Qwen 3, DeepSeek R1) по большинству задач

Подробный обзор

Что такое Nous Hermes 2

Nous Hermes 2 — семейство open-source языковых моделей от Nous Research, выпущенное в январе 2024 года. Флагман линейки — Nous-Hermes-2-Mixtral-8x7B-DPO, файнтюн модели Mixtral 8x7B от Mistral AI, обученный методом Direct Preference Optimization на корпусе из более чем 1 миллиона записей преимущественно от GPT-4. Это была первая в линейке Nous модель на MoE-архитектуре (Mixture of Experts), и на момент релиза она показывала лучшие результаты, чем оригинальный Mixtral Instruct по большинству ключевых бенчмарков.

Архитектура и обучение

Под капотом — Mixtral 8x7B: 46.7 миллиардов параметров в восьми «экспертных» подсетях, но на каждом токене активны только два эксперта — 12.9 миллиарда параметров. Это даёт скорость dense-модели на 13B параметров при качестве модели на 70B+, и Nous Hermes 2 наследует это преимущество. Дообучение шло в два этапа: сначала SFT (supervised fine-tuning) на инструкционных данных, затем DPO — метод выравнивания предпочтений, более эффективный чем классический RLHF. Модель использует промпт-формат ChatML с явными системными, пользовательскими и assistant-ролями — стандарт OpenAI, удобный для агентных систем.

Производительность и бенчмарки

По состоянию на январь 2024 года Nous Hermes 2 Mixtral DPO показала следующие результаты:

  • MMLU: 72.3% (против 70.6% у Mixtral Instruct v0.1)
  • HellaSwag: 87.2% — здравый смысл и понимание контекста
  • ARC: 71.4% — научные вопросы школьного уровня
  • WinoGrande: 82.6% — разрешение местоимений
  • GSM8K: 70.7% — математические задачи
  • HuggingFace Average: 73.1 — высокий результат среди open-source 2024 года

В реальных задачах модель сильнее всего проявляет себя в код-генерации, креативном письме, ролевых диалогах и многошаговых рассуждениях — те домены, где помог корпус от GPT-4.

Место в линейке Nous Research

Nous Hermes 2 остаётся доступной, но Nous Research выпустила несколько более новых поколений. Hermes 3 (август 2024) построена на Llama 3.1 и значительно расширила возможности агентного поведения. Hermes 4 (январь — сентябрь 2025) — гибридное рассуждение с переключаемым thinking-режимом, варианты 14B/70B/405B. Hermes 4.3 (август 2025) — первая модель на не-Meta базе (ByteDance Seed 36B), 70B-уровень качества в 36B плотной архитектуре с контекстом 512K токенов, обучена через децентрализованную сеть Psyche. Для новых проектов рациональнее смотреть на Hermes 3 или 4; Hermes 2 остаётся актуальной для тех, у кого она уже встроена в продакшен или кому критично качество DPO-выравнивания на компактной MoE.

Доступность и особенности использования

Модель публикуется по лицензии Apache 2.0 — это значит коммерческое использование, модификация и развёртывание разрешены без отчислений и без скрытых ограничений. Веса доступны на HuggingFace в репозитории NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO, есть готовые GGUF-кванты от TheBloke для запуска через llama.cpp и Ollama. Для локального деплоя на GPU нужно от 28 GB VRAM (Q4-квантизация) до 94 GB (полные веса fp16). Альтернатива — облачный доступ через OpenRouter, Together AI или Replicate с оплатой за токены (~$0.5–1 за миллион). OpenRouter принимает оплату криптовалютой, что удобно для пользователей из России. Сама модель и инструменты не блокируются — open-source веса можно скачать и запускать где угодно. На русском языке модель работает, но заметно хуже английского — основной корпус обучения англоязычный.

Часто задаваемые вопросы

Что такое Nous Hermes 2 и кто её сделал?
Nous Hermes 2 — open-source языковая модель от исследовательской группы Nous Research, выпущенная в январе 2024 года. Флагман линейки — Nous-Hermes-2-Mixtral-8x7B-DPO, файнтюн Mixtral 8x7B от Mistral AI, обученный методом Direct Preference Optimization на корпусе из 1+ миллиона записей преимущественно от GPT-4. Веса распространяются по лицензии Apache 2.0.
На какой базовой модели построена и почему MoE важно?
Nous Hermes 2 Mixtral DPO построена на архитектуре Mixtral 8x7B — Mixture of Experts от Mistral AI. У модели 46.7 миллиардов параметров суммарно, разнесённых на 8 экспертных подсетей по ~7B каждая. На каждом токене активны только два эксперта — это 12.9 миллиардов параметров. На практике это даёт скорость 13B-модели при качестве 70B+, что особенно полезно при локальном запуске.
Какие требования к железу для локального запуска?
Минимум 28 GB VRAM для Q4-квантизации (например, RTX 3090/4090 с разгрузкой части слоёв в RAM). Полные веса в fp16 требуют около 94 GB VRAM — нужны A100 80GB или серверные конфигурации с несколькими GPU. Для CPU-запуска через llama.cpp и GGUF-кванты от TheBloke нужно 32-64 GB RAM, но скорость будет ниже — единицы токенов в секунду.
Можно ли использовать Nous Hermes 2 коммерчески?
Да, лицензия Apache 2.0 разрешает коммерческое использование, модификацию и распространение модели без отчислений и без согласований с автором. Вы можете развернуть модель на своих серверах, использовать в платных продуктах, обучить собственный fine-tune и распространять полученное под любой лицензией.
Работает ли модель в России и поддерживает ли русский язык?
Open-source веса с HuggingFace не блокируются — модель можно скачать и запускать локально где угодно. Однако сама модель обучена в основном на англоязычных данных, поэтому русский язык работает с заметным качественным провалом по сравнению с английским. Для русскоязычных задач сейчас лучше смотреть на Qwen 3, DeepSeek R1 или специализированные русские модели (YandexGPT, GigaChat).
Есть ли API и какие варианты использования без локального GPU?
Официального бесплатного API от Nous Research для Hermes 2 нет. Облачный доступ возможен через OpenRouter (~$0.5–1 за 1M токенов, OpenAI-совместимый API, принимает криптовалюту), Together AI или Replicate. Это удобно для тестирования модели перед on-premise деплоем или для эпизодических задач без своей инфраструктуры.
Чем отличается DPO версия от SFT?
SFT (Supervised Fine-Tuning) — базовый этап дообучения на размеченных диалогах. DPO (Direct Preference Optimization) — дополнительный этап, где модель учится на парах «хороший/плохой ответ» и подстраивается под человеческие предпочтения. DPO-версия Nous Hermes 2 Mixtral в среднем даёт более качественные и помогающие ответы, лучше следует инструкциям. Для большинства задач рекомендуется именно DPO; SFT-вариант может быть полезен как стартовая точка для собственного дообучения.
Какие модели Nous Research стоит смотреть для новых проектов?
Для актуальных задач — Hermes 3 (август 2024, на Llama 3.1) или Hermes 4 (январь–сентябрь 2025, гибридное рассуждение, варианты 14B/70B/405B). Свежий флагман — Hermes 4.3 (август 2025) на базе ByteDance Seed 36B: 70B-уровень качества в плотной 36B-архитектуре, контекст 512K токенов, обучена через децентрализованную сеть Psyche. Hermes 2 остаётся актуальной только если она уже встроена в продакшен или критичен компактный MoE.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно