Nous Hermes 2
Open-source файнтюн Mixtral 8x7B от Nous Research, обученный методом DPO на 1M+ записях GPT-4. MoE-архитектура (46.7B total / 12.9B active), формат ChatML, веса Apache 2.0 — можно деплоить локально или через OpenRouter.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Nous Research
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Лицензия Apache 2.0 — коммерческое использование без отчислений
- Веса на HuggingFace: NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO
- Запуск через transformers, vLLM, llama.cpp, Ollama
- GGUF-кванты от TheBloke для запуска на CPU и слабых GPU
- Нужно от 28GB VRAM (Q4) до 94GB (fp16)
- Готовый облачный API без своей инфраструктуры
- Pay-per-token — платите только за реальное использование
- OpenAI-совместимый интерфейс, легко интегрировать
- Принимает оплату криптовалютой (для пользователей из РФ)
- Альтернативные облачные хостинги модели
- REST API, batch и streaming
- Подходит для тестирования перед деплоем on-premise
Плюсы и минусы
Подробный обзор
Что такое Nous Hermes 2
Nous Hermes 2 — семейство open-source языковых моделей от Nous Research, выпущенное в январе 2024 года. Флагман линейки — Nous-Hermes-2-Mixtral-8x7B-DPO, файнтюн модели Mixtral 8x7B от Mistral AI, обученный методом Direct Preference Optimization на корпусе из более чем 1 миллиона записей преимущественно от GPT-4. Это была первая в линейке Nous модель на MoE-архитектуре (Mixture of Experts), и на момент релиза она показывала лучшие результаты, чем оригинальный Mixtral Instruct по большинству ключевых бенчмарков.
Архитектура и обучение
Под капотом — Mixtral 8x7B: 46.7 миллиардов параметров в восьми «экспертных» подсетях, но на каждом токене активны только два эксперта — 12.9 миллиарда параметров. Это даёт скорость dense-модели на 13B параметров при качестве модели на 70B+, и Nous Hermes 2 наследует это преимущество. Дообучение шло в два этапа: сначала SFT (supervised fine-tuning) на инструкционных данных, затем DPO — метод выравнивания предпочтений, более эффективный чем классический RLHF. Модель использует промпт-формат ChatML с явными системными, пользовательскими и assistant-ролями — стандарт OpenAI, удобный для агентных систем.
Производительность и бенчмарки
По состоянию на январь 2024 года Nous Hermes 2 Mixtral DPO показала следующие результаты:
- MMLU: 72.3% (против 70.6% у Mixtral Instruct v0.1)
- HellaSwag: 87.2% — здравый смысл и понимание контекста
- ARC: 71.4% — научные вопросы школьного уровня
- WinoGrande: 82.6% — разрешение местоимений
- GSM8K: 70.7% — математические задачи
- HuggingFace Average: 73.1 — высокий результат среди open-source 2024 года
В реальных задачах модель сильнее всего проявляет себя в код-генерации, креативном письме, ролевых диалогах и многошаговых рассуждениях — те домены, где помог корпус от GPT-4.
Место в линейке Nous Research
Nous Hermes 2 остаётся доступной, но Nous Research выпустила несколько более новых поколений. Hermes 3 (август 2024) построена на Llama 3.1 и значительно расширила возможности агентного поведения. Hermes 4 (январь — сентябрь 2025) — гибридное рассуждение с переключаемым thinking-режимом, варианты 14B/70B/405B. Hermes 4.3 (август 2025) — первая модель на не-Meta базе (ByteDance Seed 36B), 70B-уровень качества в 36B плотной архитектуре с контекстом 512K токенов, обучена через децентрализованную сеть Psyche. Для новых проектов рациональнее смотреть на Hermes 3 или 4; Hermes 2 остаётся актуальной для тех, у кого она уже встроена в продакшен или кому критично качество DPO-выравнивания на компактной MoE.
Доступность и особенности использования
Модель публикуется по лицензии Apache 2.0 — это значит коммерческое использование, модификация и развёртывание разрешены без отчислений и без скрытых ограничений. Веса доступны на HuggingFace в репозитории NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO, есть готовые GGUF-кванты от TheBloke для запуска через llama.cpp и Ollama. Для локального деплоя на GPU нужно от 28 GB VRAM (Q4-квантизация) до 94 GB (полные веса fp16). Альтернатива — облачный доступ через OpenRouter, Together AI или Replicate с оплатой за токены (~$0.5–1 за миллион). OpenRouter принимает оплату криптовалютой, что удобно для пользователей из России. Сама модель и инструменты не блокируются — open-source веса можно скачать и запускать где угодно. На русском языке модель работает, но заметно хуже английского — основной корпус обучения англоязычный.