Gemma 4

Gemma 4

Открытое семейство моделей Google (2 апреля 2026, Apache 2.0): от Effective 2B/4B для телефонов до 26B MoE и 31B Dense, плюс мультимодальная 12B без энкодеров (3 июня). Контекст до 256K, 140+ языков, мультимодальный вход. Флагман 31B входит в топ-3 Arena среди текстовых моделей, обходя кратно более крупных конкурентов.

Бесплатно (открытые веса, Apache 2.0)Работает в РФ
8.3/10📅 2026-04-02🏢 Google DeepMind✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
8.3/10
Benchmark Score
8.2/10
Скорость
8.5/10
Размеры
E2B / E4B / 12B / 26B MoE / 31B Dense
MMLU Pro
85.2% (31B)
AIME 2026
89.2% (31B)
Arena
#3 среди текстовых (31B Dense), #6 (26B)
Контекст
до 256K, 140+ языков

Входные и выходные данные

Входные данные
текстизображениеаудиовидео
Выходные данные
текст

API и стоимость

Входные токены (Input)
Бесплатно (открытые веса, Apache 2.0)
цена за промпт
API доступен

Способы доступа

Self-hosted (Hugging FaceKaggleOllama)Google Cloud (Vertex AI)

Сценарии использования

локальный запуск на любом железемультимодальный анализагентные задачиофлайн-кодингмногоязычные приложения

Тарифы и подписки — Google DeepMind

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Открытые веса (self-host)
Бесплатно
  • Веса на Hugging Face, Kaggle, Ollama (Apache 2.0)
  • Коммерческое использование без ограничений
  • Размеры под любое железо — от телефона до сервера
  • Запуск через llama.cpp / vLLM / LM Studio / MLX
Популярный
Google Cloud (Vertex AI)
оплата за использование
  • Managed-эндпоинт без своего железа
  • Масштабирование и SLA
  • Интеграция с экосистемой Google Cloud
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Лучшие открытые модели «байт к байту»: флагман 31B Dense входит в топ-3 Arena среди текстовых, обходя кратно более крупных конкурентов
Целая линейка под любое железо: от Effective 2B/4B (телефоны, edge) до 26B MoE и 31B Dense
Мультимодальность: изображения и видео во всех моделях, нативное аудио в E2B/E4B, а 12B обрабатывает картинки и звук вообще без энкодеров
Контекст до 256K токенов и поддержка 140+ языков, включая русский
Открытые веса под Apache 2.0 — бесплатно, в том числе для коммерции, без привязки к Google
День-в-день поддержка в Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM и др.
✗ Минусы
Это модели для self-host: нужен GPU и техническая настройка (или managed-доступ через Vertex AI)
По «потолку» качества уступает закрытым флагманам (Gemini 3 Pro, GPT-5.5, Claude) на самых сложных задачах
Нет готового потребительского чата «Gemma» — это модель для разработчиков, а не приложение
Старшие 26B/31B требуют серьёзной видеопамяти для локального запуска
Русский поддерживается (140+ языков), но качество ниже специализированных русскоязычных моделей
Для агентных и самых сложных reasoning-сценариев нередко берут более крупные закрытые модели

Подробный обзор

Что такое Gemma 4

Gemma 4 — новое поколение открытых моделей Google DeepMind, выпущенное 2 апреля 2026 года под свободной лицензией Apache 2.0. Это «младшие братья» закрытой линейки Gemini: те же исследования и технологии, но с открытыми весами, которые можно скачать и запускать у себя. Главный тезис Google — «byte for byte, самые способные открытые модели»: при сопоставимом размере Gemma 4 выжимает больше качества, чем конкуренты.

Линейка размеров

  • Effective 2B / 4B (E2B/E4B) — компактные модели для телефонов и edge, с нативным аудио на входе
  • 12B (3 июня 2026) — мультимодальная модель с encoder-free архитектурой: обрабатывает изображения и звук без отдельных энкодеров, помещается на ноутбук с 16 ГБ памяти
  • 26B MoE — Mixture-of-Experts, #6 в Arena среди текстовых моделей
  • 31B Dense — флагман: #3 в Arena, 85.2% на MMLU Pro и 89.2% на AIME 2026, обходит кратно более крупные модели

Все модели принимают изображения и видео на входе, держат контекст до 256K токенов и понимают 140+ языков, включая русский.

Где запускать

Gemma 4 — это веса, а не готовое приложение. День-в-день она поддержана почти всем экосистемным стеком: Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM, SGLang и др. Маленькие E2B/E4B и 12B запускаются на потребительском железе и даже телефонах; старшие 26B/31B требуют серьёзной видеопамяти. Для запуска без своего железа есть managed-доступ через Google Cloud (Vertex AI).

Доступность в России

Модели работают в России без ограничений — это открытые веса под Apache 2.0: скачиваете с Hugging Face, Kaggle или через Ollama (иногда нужен VPN для стабильной загрузки) и запускаете локально без аккаунтов, карт и подписок. Поддержка 140+ языков означает, что русский Gemma 4 понимает, хотя по качеству на русском уступает специализированным моделям. Из работающих в России облачных русскоязычных альтернатив — YandexGPT и GigaChat.

Часто задаваемые вопросы

Что такое Gemma 4?
Открытое семейство моделей Google DeepMind (2 апреля 2026, лицензия Apache 2.0) — открытые «родственники» закрытой линейки Gemini. Включает размеры от Effective 2B/4B (для телефонов) до 26B MoE и 31B Dense, плюс мультимодальную 12B без энкодеров. Контекст до 256K, 140+ языков, мультимодальный вход.
Насколько Gemma 4 хороша по качеству?
Очень сильна для своего размера: флагман 31B Dense занимает 3-е место в Arena среди текстовых моделей, набирает 85.2% на MMLU Pro и 89.2% на AIME 2026 — обходя кратно более крупных конкурентов. Отсюда слоган Google «byte for byte самые способные открытые модели». Но абсолютного потолка закрытых флагманов (Gemini 3 Pro, GPT-5.5) она не достигает.
Gemma 4 бесплатна и можно ли использовать коммерчески?
Да. Gemma 4 распространяется под Apache 2.0 — это свободная лицензия: веса можно скачать с Hugging Face/Kaggle/Ollama, запускать локально и использовать коммерчески без ограничений и роялти. Платить нужно только за чужой хостинг (например, managed-доступ через Google Cloud Vertex AI).
Какие размеры Gemma 4 выбрать?
E2B/E4B — для телефонов и edge, минимум ресурсов. 12B — мультимодальная (encoder-free), помещается на ноутбук с 16 ГБ. 26B MoE — баланс качества и эффективности. 31B Dense — максимум качества, но нужна серьёзная видеопамять. Под слабое железо берите E4B/12B, под качество на сервере — 31B.
Какие модальности поддерживает Gemma 4?
Все модели принимают на вход текст, изображения и видео; E2B/E4B поддерживают нативный аудиовход, а 12B обрабатывает изображения и звук вообще без отдельных энкодеров. Выход — текст. Контекстное окно — до 256K токенов, поддержка 140+ языков.
Работает ли Gemma 4 в России?
Да, без ограничений — это открытые веса под Apache 2.0: качаете с Hugging Face/Kaggle/Ollama и запускаете локально без аккаунтов и карт (VPN может понадобиться лишь для стабильной загрузки). Русский модель понимает (140+ языков), но на русском уступает специализированным моделям; из работающих в РФ облачных альтернатив — YandexGPT и GigaChat.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно