Llama 4 Maverick

Llama 4 Maverick

Open-weight флагман линейки Llama 4 от Meta: нативно мультимодальная MoE-модель (400B всего, 17B активных, 128 экспертов), контекст 1M токенов. Бесплатные веса под Llama 4 Community License, дешёвый API через провайдеров. Релиз 5 апреля 2025.

Self-host бесплатно / API ~$0.15–0.27 вход, ~$0.60–0.85 выход за 1MРаботает в РФРусский язык
8.4/10📅 2025-04-05🏢 MetaProprietary

Рейтинг и бенчмарки

Общий рейтинг
8.4/10
Benchmark Score
8.3/10
Скорость
8.5/10
Архитектура
400B / 17B активных, 128 экспертов MoE
Контекст
1M токенов
Мультимодальность
текст + изображения (нативно)
vs GPT-4o / Gemini 2.0 Flash
обходит на большинстве бенчмарков
Релиз
5 апреля 2025

Входные и выходные данные

Входные данные
текстизображение
Выходные данные
текст

API и стоимость

Входные токены (Input)
Self-host бесплатно / API ~$0.15–0.27 вход, ~$0.60–0.85 выход за 1M
цена за промпт
Выходные токены (Output)
~$0.60–0.85 / 1M выходных токенов (зависит от провайдера)
цена за ответ
API доступен

Способы доступа

Self-hosted (HuggingFace)OpenRouterTogether AIDeepInfraGroqAWS BedrockOracle OCI

Сценарии использования

чат-ассистентнаписание и анализ кодамультимодальный анализ изображенийRAG на больших документахфайн-тюнинг под свою задачу

Тарифы и подписки — Meta

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Популярный
Self-hosted (Open Weights)
Бесплатно
  • Веса на HuggingFace: meta-llama/Llama-4-Maverick
  • Коммерческое использование по Llama 4 Community License (до 700M MAU)
  • Запуск через vLLM, transformers, llama.cpp (кванты)
  • Файн-тюнинг и LoRA под свою задачу
  • Нужны серверные GPU (многокарточная конфигурация)
OpenRouter API
~$0.15 вход / $0.60 выход за 1M
  • Готовый облачный API без своей инфраструктуры
  • OpenAI-совместимый формат
  • Принимает оплату криптовалютой (удобно для РФ)
  • Маршрутизация между провайдерами для лучшей цены
Together AI / DeepInfra / Groq
~$0.19–0.49 за 1M (blend)
  • Альтернативные облачные хостинги Maverick
  • Groq — экстремально быстрая инференция
  • Together AI и DeepInfra — баланс цены и скорости
  • REST API, streaming, batch
AWS Bedrock / Oracle OCI
По тарифам облака
  • Enterprise-доступ в корпоративных облаках
  • SLA, приватность, соответствие требованиям
  • Интеграция в существующую облачную инфраструктуру
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Open-weight под Llama 4 Community License — можно скачать, развернуть локально, дообучить и использовать коммерчески (до 700M MAU)
MoE-архитектура: 400B параметров всего, но активны только 17B на токен — качество крупной модели при скорости и цене средней
Нативная мультимодальность — обрабатывает текст и изображения в одной модели (анализ скриншотов, диаграмм, фото)
Контекст 1M токенов — работа с большими документами и кодовыми базами в один проход
Очень дёшево через API: от ~$0.15 за 1M входных токенов (OpenRouter) — в разы дешевле GPT-5.x и Claude
Обходит GPT-4o и Gemini 2.0 Flash на большинстве бенчмарков при вдвое меньшем числе активных параметров чем у DeepSeek V3
✗ Минусы
Llama 4 Community License — не полностью свободная: компаниям с 700M+ ежемесячных пользователей нужна отдельная лицензия от Meta
Уступает топовым моделям 2026 года (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro) по сложным рассуждениям и агентному кодингу
Локальный запуск тяжёлый — 400B параметров требуют многокарточных серверных конфигураций, на одной потребительской GPU не идёт
Качество русского ниже английского — модель многоязычная, но основной упор на английский
Нет официального чат-интерфейса от Meta для РФ — доступ через сторонние провайдеры или self-host
Заявленный контекст 1M на практике у провайдеров часто урезан (128K–256K) — полный миллион доступен не везде

Подробный обзор

Что такое Llama 4 Maverick

Llama 4 Maverick — флагманская open-weight модель семейства Llama 4 от Meta, выпущенная 5 апреля 2025 года. Это ответ Meta на DeepSeek и другие открытые модели: первая в линейке Llama, построенная на архитектуре Mixture of Experts (MoE) и нативно мультимодальная (текст + изображения с самого старта, а не доученная позже). Maverick позиционируется как «рабочая лошадка» — баланс качества, скорости и цены для массового применения; именно на моделях Llama 4 работают ИИ-функции в WhatsApp, Instagram и Messenger.

Архитектура и линейка Llama 4

Maverick имеет 400 миллиардов параметров всего, но активны лишь 17 миллиардов на каждый токен — это даёт качество крупной модели при скорости и цене средней. MoE-слои используют 128 маршрутизируемых экспертов плюс общий эксперт: каждый токен идёт через общего эксперта и одного из 128 специализированных. В линейку также входят:

  • Llama 4 Scout — компактнее (109B всего, 17B активных, 16 экспертов), но с рекордным контекстом до 10M токенов
  • Llama 4 Maverick — флагман для большинства задач, контекст 1M токенов
  • Llama 4 Behemoth — анонсированный «учитель» на ~2T параметров, использовался для дистилляции младших моделей

Производительность

На момент выхода Maverick обходил GPT-4o и Gemini 2.0 Flash на широком наборе бенчмарков и показывал результаты, сопоставимые с DeepSeek V3 на задачах рассуждения и кодинга — при менее чем половине активных параметров. Нативная мультимодальность позволяет анализировать изображения (скриншоты, диаграммы, фото) в том же запросе, что и текст. По меркам 2026 года Maverick уже уступает топовым проприетарным моделям (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro), но остаётся одним из сильнейших открытых вариантов по соотношению цена/качество.

Цены и где запускать

Веса бесплатны для скачивания на HuggingFace. Для локального запуска нужны серверные GPU (400B параметров — многокарточная конфигурация), на одной потребительской видеокарте полная модель не идёт. Облачный доступ дешёвый: OpenRouter — ~$0.15 за 1M входных и ~$0.60 за 1M выходных токенов; Together AI, DeepInfra, Groq (экстремально быстрый), AWS Bedrock и Oracle OCI для enterprise. Meta оценивает blended-стоимость инференса в $0.19–0.49 за 1M токенов — в разы дешевле GPT-5.x и Claude.

Лицензия и доступность в России

Модель распространяется под Llama 4 Community License — это не полностью свободная лицензия: коммерческое использование разрешено, но компаниям с 700+ миллионами активных пользователей в месяц требуется отдельное разрешение Meta. Для подавляющего большинства это ограничение не актуально. Open-weight природа означает, что веса не блокируются для России — их можно скачать и запускать локально где угодно. Облачный доступ через OpenRouter (принимает криптовалюту, удобно для РФ), Together AI, DeepInfra работает из России. Российские карты МИР напрямую обычно не принимаются — нужна зарубежная карта или крипта. Модель многоязычная и понимает русский, хотя качество ниже английского.

Часто задаваемые вопросы

Что такое Llama 4 Maverick и чем отличается от Scout?
Llama 4 Maverick — флагманская open-weight модель Meta, выпущенная 5 апреля 2025 года, на архитектуре MoE (400B параметров всего, 17B активных, 128 экспертов) с контекстом 1M токенов. Llama 4 Scout — её компактная сестра (109B всего, 16 экспертов) с рекордным контекстом до 10M токенов. Maverick сильнее по качеству для большинства задач, Scout — выбор когда нужен экстремально длинный контекст на более лёгком железе.
Что значит MoE и зачем 400B параметров если активны только 17B?
MoE (Mixture of Experts) — архитектура, где модель состоит из множества «экспертов», но на каждый токен активируется только часть. У Maverick 400 миллиардов параметров всего, но на токен работают лишь 17 миллиардов (общий эксперт + 1 из 128 маршрутизируемых). Это даёт качество и знания крупной модели при скорости и стоимости инференса средней — ключевое преимущество MoE.
Сколько стоит использование Llama 4 Maverick?
Веса бесплатны для скачивания (self-host). Облачный API очень дёшев: OpenRouter ~$0.15 за 1M входных и ~$0.60 за 1M выходных токенов; Together AI, DeepInfra, Groq — в диапазоне $0.19–0.49 за 1M (blended по оценке Meta). Это в разы дешевле GPT-5.x и Claude Opus. Для локального запуска нужны только затраты на GPU-инфраструктуру.
Можно ли использовать Llama 4 Maverick коммерчески?
Да, по Llama 4 Community License коммерческое использование разрешено. Единственное существенное ограничение: компаниям с 700+ миллионами активных пользователей в месяц нужно отдельное разрешение от Meta. Для индивидуальных разработчиков, стартапов и большинства бизнесов это ограничение неактуально. Веса можно дообучать и распространять с соблюдением условий лицензии.
Работает ли Llama 4 Maverick в России?
Да. Open-weight веса на HuggingFace не блокируются — модель можно скачать и запускать локально где угодно. Облачный доступ через OpenRouter (принимает криптовалюту, удобно для РФ), Together AI, DeepInfra и Groq работает из России. Российские карты МИР напрямую обычно не принимаются — нужна зарубежная карта или оплата криптовалютой через OpenRouter.
Какие требования к железу для локального запуска?
Maverick — тяжёлая модель: 400B параметров требуют серверной многокарточной GPU-конфигурации (несколько A100/H100 80GB). На одной потребительской видеокарте полная модель не запустится. Существуют квантизованные версии (GGUF, FP8) от сообщества, снижающие требования, но всё равно речь о десятках гигабайт VRAM. Для большинства проще использовать облачный API провайдеров, чем держать своё железо.
Какие альтернативы Llama 4 Maverick среди открытых моделей?
Основные конкуренты в open-weight: DeepSeek V3/R1 (сильны в рассуждениях и коде), Qwen 3 от Alibaba (Apache 2.0, многоязычность), Mistral Large, Nous Hermes (файнтюны). По меркам 2026 года для топового качества стоит смотреть на свежие DeepSeek и Qwen. Maverick остаётся хорошим выбором по соотношению цена/качество и за нативную мультимодальность. Для русского языка также подойдут YandexGPT и GigaChat (но они проприетарные).

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно