Llama 4 Maverick
Open-weight флагман линейки Llama 4 от Meta: нативно мультимодальная MoE-модель (400B всего, 17B активных, 128 экспертов), контекст 1M токенов. Бесплатные веса под Llama 4 Community License, дешёвый API через провайдеров. Релиз 5 апреля 2025.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Meta
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Веса на HuggingFace: meta-llama/Llama-4-Maverick
- Коммерческое использование по Llama 4 Community License (до 700M MAU)
- Запуск через vLLM, transformers, llama.cpp (кванты)
- Файн-тюнинг и LoRA под свою задачу
- Нужны серверные GPU (многокарточная конфигурация)
- Готовый облачный API без своей инфраструктуры
- OpenAI-совместимый формат
- Принимает оплату криптовалютой (удобно для РФ)
- Маршрутизация между провайдерами для лучшей цены
- Альтернативные облачные хостинги Maverick
- Groq — экстремально быстрая инференция
- Together AI и DeepInfra — баланс цены и скорости
- REST API, streaming, batch
- Enterprise-доступ в корпоративных облаках
- SLA, приватность, соответствие требованиям
- Интеграция в существующую облачную инфраструктуру
Плюсы и минусы
Подробный обзор
Что такое Llama 4 Maverick
Llama 4 Maverick — флагманская open-weight модель семейства Llama 4 от Meta, выпущенная 5 апреля 2025 года. Это ответ Meta на DeepSeek и другие открытые модели: первая в линейке Llama, построенная на архитектуре Mixture of Experts (MoE) и нативно мультимодальная (текст + изображения с самого старта, а не доученная позже). Maverick позиционируется как «рабочая лошадка» — баланс качества, скорости и цены для массового применения; именно на моделях Llama 4 работают ИИ-функции в WhatsApp, Instagram и Messenger.
Архитектура и линейка Llama 4
Maverick имеет 400 миллиардов параметров всего, но активны лишь 17 миллиардов на каждый токен — это даёт качество крупной модели при скорости и цене средней. MoE-слои используют 128 маршрутизируемых экспертов плюс общий эксперт: каждый токен идёт через общего эксперта и одного из 128 специализированных. В линейку также входят:
- Llama 4 Scout — компактнее (109B всего, 17B активных, 16 экспертов), но с рекордным контекстом до 10M токенов
- Llama 4 Maverick — флагман для большинства задач, контекст 1M токенов
- Llama 4 Behemoth — анонсированный «учитель» на ~2T параметров, использовался для дистилляции младших моделей
Производительность
На момент выхода Maverick обходил GPT-4o и Gemini 2.0 Flash на широком наборе бенчмарков и показывал результаты, сопоставимые с DeepSeek V3 на задачах рассуждения и кодинга — при менее чем половине активных параметров. Нативная мультимодальность позволяет анализировать изображения (скриншоты, диаграммы, фото) в том же запросе, что и текст. По меркам 2026 года Maverick уже уступает топовым проприетарным моделям (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro), но остаётся одним из сильнейших открытых вариантов по соотношению цена/качество.
Цены и где запускать
Веса бесплатны для скачивания на HuggingFace. Для локального запуска нужны серверные GPU (400B параметров — многокарточная конфигурация), на одной потребительской видеокарте полная модель не идёт. Облачный доступ дешёвый: OpenRouter — ~$0.15 за 1M входных и ~$0.60 за 1M выходных токенов; Together AI, DeepInfra, Groq (экстремально быстрый), AWS Bedrock и Oracle OCI для enterprise. Meta оценивает blended-стоимость инференса в $0.19–0.49 за 1M токенов — в разы дешевле GPT-5.x и Claude.
Лицензия и доступность в России
Модель распространяется под Llama 4 Community License — это не полностью свободная лицензия: коммерческое использование разрешено, но компаниям с 700+ миллионами активных пользователей в месяц требуется отдельное разрешение Meta. Для подавляющего большинства это ограничение не актуально. Open-weight природа означает, что веса не блокируются для России — их можно скачать и запускать локально где угодно. Облачный доступ через OpenRouter (принимает криптовалюту, удобно для РФ), Together AI, DeepInfra работает из России. Российские карты МИР напрямую обычно не принимаются — нужна зарубежная карта или крипта. Модель многоязычная и понимает русский, хотя качество ниже английского.