Llama 3

Llama 3

Открытая языковая модель Meta (апрель 2024), родоначальник линейки Llama 3.x. Версии 8B и 70B обучены на 15 триллионах токенов, контекст 8K. 8B-модель обошла Llama 2 70B (в 9 раз крупнее). Лицензия Llama 3 Community — коммерция разрешена. Работает в РФ без VPN при self-host.

Бесплатно (self-host) / API ~$0.05–0.30 за 1M токенов у провайдеровРаботает в РФ
6.5/10📅 2024-04-18🏢 MetaProprietary

Рейтинг и бенчмарки

Общий рейтинг
6.5/10
Benchmark Score
6.5/10
Скорость
8.5/10
MMLU (70B)
79.5%
HumanEval (70B)
81.7%
GSM8K (70B)
93.0%
MMLU (8B)
66.6%
Обучение
15 триллионов токенов
Релиз
18 апреля 2024

Входные и выходные данные

Входные данные
текст
Выходные данные
текст

API и стоимость

Входные токены (Input)
Бесплатно (self-host) / API ~$0.05–0.30 за 1M токенов у провайдеров
цена за промпт
Выходные токены (Output)
~$0.05–0.40 / 1M токенов (зависит от провайдера и размера модели)
цена за ответ
API доступен

Способы доступа

Self-hosted (HuggingFaceOllama)OpenRouterTogether AIGroqAWS BedrockMeta AI

Сценарии использования

чат-ассистентнаписание и анализ кодасуммаризацияответы на вопросыдообучение под свою задачулокальный приватный LLM

Тарифы и подписки — Meta

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Популярный
Self-hosted (Open Weights)
Бесплатно
  • Веса на HuggingFace: meta-llama/Meta-Llama-3-8B и -70B
  • Коммерция по Llama 3 Community License (до 700M MAU)
  • Запуск через Ollama, llama.cpp, vLLM, transformers
  • GGUF-кванты для слабого железа
  • Дообучение и LoRA под свою задачу
OpenRouter / Together / Groq
~$0.05–0.40 за 1M токенов
  • Облачный доступ без своей инфраструктуры
  • Groq — экстремально быстрая инференция Llama 3
  • OpenRouter принимает криптовалюту (для РФ)
  • OpenAI-совместимый API
Meta AI (веб/приложения)
Бесплатно
  • Чат с Llama через Meta AI (где доступно)
  • Интеграция в WhatsApp, Messenger, Instagram
  • Без установки и регистрации API
  • Недоступно в ряде стран, включая РФ напрямую
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Открытые веса — можно скачать, развернуть локально, дообучить и использовать коммерчески (до 700M MAU)
Два размера под разные задачи: 8B для слабого железа и скорости, 70B для качества уровня топовых моделей того времени
8B обошла Llama 2 70B (в 9 раз крупнее) на MMLU — огромный скачок эффективности для своего размера
Очень дёшево через API: от ~$0.05 за 1M токенов у провайдеров (Groq, Together, OpenRouter)
Работает в России без VPN — open-weights свободно качаются с HuggingFace, запуск локальный или через OpenRouter с криптой
Огромная экосистема: Ollama, llama.cpp, vLLM, LoRA, тысячи файнтюнов — стандарт де-факто для локальных LLM
✗ Минусы
Устарела — это родоначальник линейки (апрель 2024), вышли Llama 3.1, 3.2, 3.3 и Llama 4, которые сильнее
Маленький контекст 8192 токена — у Llama 3.1+ уже 128K, у современных моделей до 1M
Русский язык слабый — Llama 3 обучена в основном на английском, для русского лучше Qwen или русские модели
Только текст — нет мультимодальности (изображения появились в Llama 3.2 Vision и Llama 4)
Российские карты МИР не принимаются у API-провайдеров — нужна крипта (OpenRouter) или зарубежная карта
Запуск 70B локально требует серверной GPU — на потребительском железе идёт только 8B (или квантизованная 70B)

Подробный обзор

Что такое Llama 3

Llama 3 — открытая языковая модель от Meta, выпущенная 18 апреля 2024 года. Это родоначальник всей линейки Llama 3.x (за ней последовали 3.1, 3.2, 3.3 и Llama 4). На старте вышли сразу четыре модели: базовые 8B и 70B и их instruction-tuned версии (8B Instruct, 70B Instruct). На момент релиза Llama 3 была самой способной открытой моделью в своих весовых категориях, обойдя Mistral, Gemma и предыдущее поколение Llama 2.

Обучение и архитектура

Модели обучены на 15 триллионах токенов из публичных источников — это в 7 раз больше, чем у Llama 2, и вчетверо больше кода. Словарь — 128K токенов, контекстное окно — 8192 токена (по меркам 2024 нормально, по меркам 2026 мало). Улучшения в пост-тренинге резко снизили долю ложных отказов, улучшили выравнивание и разнообразие ответов. Самый яркий результат — 8B-модель обошла Llama 2 70B (почти в 9 раз крупнее) на MMLU: скачок эффективности, который переопределил планку для маленьких открытых моделей.

Бенчмарки

  • MMLU: 70B — 79.5%, 8B — 66.6%
  • HumanEval (код): 70B — 81.7%, 8B — 62.2%
  • GSM8K (математика): 70B — 93.0%, 8B — 79.6%

Для открытой модели апреля 2024 это были выдающиеся результаты — 70B конкурировал с проприетарными моделями вроде GPT-3.5 и приближался к GPT-4 на части задач.

Лицензия и где запускать

Llama 3 распространяется под Llama 3 Community License — коммерческое использование разрешено, единственное существенное ограничение: компаниям с 700+ миллионами активных пользователей в месяц нужно отдельное разрешение Meta (для большинства неактуально). Запуск: self-host (веса на HuggingFace, через Ollama, llama.cpp, vLLM — 8B идёт на потребительской GPU, 70B нужна серверная); облачные провайдеры — OpenRouter, Together AI, Groq (экстремально быстрый), AWS Bedrock по цене от ~$0.05 за 1M токенов; Meta AI в WhatsApp/Messenger там, где доступно.

Состояние на 2026 и доступность в России

Llama 3 — родоначальник, который уже устарел. Вышли Llama 3.1 (контекст 128K), 3.2 (с vision), 3.3 (качество 405B в 70B) и Llama 4 (MoE, мультимодальность). Для новых проектов берите свежие версии. Llama 3 ценна как точка отсчёта и для лёгких задач на 8B. Веса не блокируются для России — свободно качаются с HuggingFace, запускаются локально или через OpenRouter (принимает крипту). Русский язык у Llama 3 слабый — обучена в основном на английском; для русского лучше Qwen, YandexGPT или GigaChat. Чат Meta AI в России напрямую недоступен, но это не мешает использовать веса.

Часто задаваемые вопросы

Что такое Llama 3 и чем она была важна?
Llama 3 — открытая языковая модель Meta, выпущенная 18 апреля 2024 года, родоначальник линейки Llama 3.x. Вышли версии 8B и 70B (плюс instruction-tuned). На момент релиза была самой способной открытой моделью в своих весовых категориях. Главное достижение — 8B-модель обошла Llama 2 70B (почти в 9 раз крупнее) на MMLU, переопределив планку эффективности для маленьких открытых моделей.
Чем отличаются версии 8B и 70B?
8B — лёгкая модель, запускается на потребительской GPU (RTX 3060/4070), быстрая, для рутинных задач и локального использования. 70B — крупная, требует серверной конфигурации, но качество значительно выше (MMLU 79.5% против 66.6%, GSM8K 93% против 79.6%). Обе обучены на 15 триллионах токенов. Выбор: 8B для скорости и слабого железа, 70B для максимального качества.
Можно ли использовать Llama 3 коммерчески?
Да, по Llama 3 Community License коммерческое использование разрешено. Единственное существенное ограничение: компаниям с 700+ миллионами активных пользователей в месяц нужно отдельное разрешение Meta — для индивидуальных разработчиков, стартапов и большинства бизнесов это неактуально. Можно скачать веса, дообучить и встроить в платный продукт.
Работает ли Llama 3 в России?
Да. Open-weights свободно качаются с HuggingFace и не блокируются — модель можно запускать локально где угодно. Облачный доступ через OpenRouter (принимает криптовалюту, удобно для РФ), Together AI, Groq работает из России. Российские карты МИР у провайдеров не принимаются — нужна крипта или зарубежная карта. Чат Meta AI в РФ напрямую недоступен, но это не мешает использовать веса.
Стоит ли в 2026 году использовать Llama 3 или взять версию новее?
Для новых проектов лучше брать новее. Llama 3 (апрель 2024) — родоначальник, но уже устарел: контекст всего 8K. Вышли Llama 3.1 (128K контекст), 3.2 (с поддержкой изображений), 3.3 (качество уровня 405B в 70B-размере) и Llama 4 (MoE, мультимодальность). Llama 3 ценна как точка отсчёта и для лёгких задач на 8B, где скорость важнее максимального качества.
Какой контекст у Llama 3 и поддерживает ли она изображения?
Контекст Llama 3 — 8192 токена (маленький по меркам 2026, у новых моделей 128K–1M). Изображения Llama 3 НЕ поддерживает — только текст. Мультимодальность (работа с картинками) появилась позже: в Llama 3.2 Vision и Llama 4. Если нужен длинный контекст или анализ изображений — берите Llama 3.1+ или Llama 4.
Какие требования к железу и альтернативы Llama 3?
Llama 3 8B запускается на потребительской GPU от 8-12 GB VRAM (RTX 3060/4070), 70B требует серверной конфигурации или квантизации. Альтернативы среди открытых моделей 2026: Llama 4, Qwen 3 (Apache 2.0, лучше русский), DeepSeek R1 (reasoning, MIT), Mistral. Для русского языка — Qwen, YandexGPT, GigaChat. Llama 3 остаётся хорошим выбором для лёгких локальных задач благодаря 8B и огромной экосистеме инструментов.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно