Gemma 4

Name: Gemma 4
Author: Google DeepMind

Открытое семейство моделей Google (2 апреля 2026, Apache 2.0): от Effective 2B/4B для телефонов до 26B MoE и 31B Dense, плюс мультимодальная 12B без энкодеров (3 июня). Контекст до 256K, 140+ языков, мультимодальный вход. Флагман 31B входит в топ-3 Arena среди текстовых моделей, обходя кратно более крупных конкурентов.

Бесплатно (открытые веса, Apache 2.0)Работает в РФ

⭐ 8.3/10📅 2026-04-02🏢 Google DeepMind✓ Open Source

Открыть сайт

Рейтинг и бенчмарки

Общий рейтинг

8.3/10

Benchmark Score

8.2/10

Скорость

8.5/10

Размеры

E2B / E4B / 12B / 26B MoE / 31B Dense

MMLU Pro

85.2% (31B)

AIME 2026

89.2% (31B)

Arena

#3 среди текстовых (31B Dense), #6 (26B)

Контекст

до 256K, 140+ языков

Входные и выходные данные

Входные данные

текстизображениеаудиовидео

Выходные данные

текст

API и стоимость

Входные токены (Input)

Бесплатно (открытые веса, Apache 2.0)

цена за промпт

✓API доступен

Документация API →

Способы доступа

Self-hosted (Hugging FaceKaggleOllama)Google Cloud (Vertex AI)

Сценарии использования

локальный запуск на любом железемультимодальный анализагентные задачиофлайн-кодингмногоязычные приложения

Тарифы и подписки — Google DeepMind

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Открытые веса (self-host)

Бесплатно

Веса на Hugging Face, Kaggle, Ollama (Apache 2.0)
Коммерческое использование без ограничений
Размеры под любое железо — от телефона до сервера
Запуск через llama.cpp / vLLM / LM Studio / MLX

Популярный

Google Cloud (Vertex AI)

оплата за использование

Managed-эндпоинт без своего железа
Масштабирование и SLA
Интеграция с экосистемой Google Cloud

Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы

Лучшие открытые модели «байт к байту»: флагман 31B Dense входит в топ-3 Arena среди текстовых, обходя кратно более крупных конкурентов

Целая линейка под любое железо: от Effective 2B/4B (телефоны, edge) до 26B MoE и 31B Dense

Мультимодальность: изображения и видео во всех моделях, нативное аудио в E2B/E4B, а 12B обрабатывает картинки и звук вообще без энкодеров

Контекст до 256K токенов и поддержка 140+ языков, включая русский

Открытые веса под Apache 2.0 — бесплатно, в том числе для коммерции, без привязки к Google

День-в-день поддержка в Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM и др.

✗ Минусы

Это модели для self-host: нужен GPU и техническая настройка (или managed-доступ через Vertex AI)

По «потолку» качества уступает закрытым флагманам (Gemini 3 Pro, GPT-5.5, Claude) на самых сложных задачах

Нет готового потребительского чата «Gemma» — это модель для разработчиков, а не приложение

Старшие 26B/31B требуют серьёзной видеопамяти для локального запуска

Русский поддерживается (140+ языков), но качество ниже специализированных русскоязычных моделей

Для агентных и самых сложных reasoning-сценариев нередко берут более крупные закрытые модели

Подробный обзор

Что такое Gemma 4

Gemma 4 — новое поколение открытых моделей Google DeepMind, выпущенное 2 апреля 2026 года под свободной лицензией Apache 2.0. Это «младшие братья» закрытой линейки Gemini: те же исследования и технологии, но с открытыми весами, которые можно скачать и запускать у себя. Главный тезис Google — «byte for byte, самые способные открытые модели»: при сопоставимом размере Gemma 4 выжимает больше качества, чем конкуренты.

Линейка размеров

Effective 2B / 4B (E2B/E4B) — компактные модели для телефонов и edge, с нативным аудио на входе
12B (3 июня 2026) — мультимодальная модель с encoder-free архитектурой: обрабатывает изображения и звук без отдельных энкодеров, помещается на ноутбук с 16 ГБ памяти
26B MoE — Mixture-of-Experts, #6 в Arena среди текстовых моделей
31B Dense — флагман: #3 в Arena, 85.2% на MMLU Pro и 89.2% на AIME 2026, обходит кратно более крупные модели

Все модели принимают изображения и видео на входе, держат контекст до 256K токенов и понимают 140+ языков, включая русский.

Где запускать

Gemma 4 — это веса, а не готовое приложение. День-в-день она поддержана почти всем экосистемным стеком: Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM, SGLang и др. Маленькие E2B/E4B и 12B запускаются на потребительском железе и даже телефонах; старшие 26B/31B требуют серьёзной видеопамяти. Для запуска без своего железа есть managed-доступ через Google Cloud (Vertex AI).

Доступность в России

Модели работают в России без ограничений — это открытые веса под Apache 2.0: скачиваете с Hugging Face, Kaggle или через Ollama (иногда нужен VPN для стабильной загрузки) и запускаете локально без аккаунтов, карт и подписок. Поддержка 140+ языков означает, что русский Gemma 4 понимает, хотя по качеству на русском уступает специализированным моделям. Из работающих в России облачных русскоязычных альтернатив — YandexGPT и GigaChat.

Часто задаваемые вопросы

Что такое Gemma 4?

Открытое семейство моделей Google DeepMind (2 апреля 2026, лицензия Apache 2.0) — открытые «родственники» закрытой линейки Gemini. Включает размеры от Effective 2B/4B (для телефонов) до 26B MoE и 31B Dense, плюс мультимодальную 12B без энкодеров. Контекст до 256K, 140+ языков, мультимодальный вход.

Насколько Gemma 4 хороша по качеству?

Очень сильна для своего размера: флагман 31B Dense занимает 3-е место в Arena среди текстовых моделей, набирает 85.2% на MMLU Pro и 89.2% на AIME 2026 — обходя кратно более крупных конкурентов. Отсюда слоган Google «byte for byte самые способные открытые модели». Но абсолютного потолка закрытых флагманов (Gemini 3 Pro, GPT-5.5) она не достигает.

Gemma 4 бесплатна и можно ли использовать коммерчески?

Да. Gemma 4 распространяется под Apache 2.0 — это свободная лицензия: веса можно скачать с Hugging Face/Kaggle/Ollama, запускать локально и использовать коммерчески без ограничений и роялти. Платить нужно только за чужой хостинг (например, managed-доступ через Google Cloud Vertex AI).

Какие размеры Gemma 4 выбрать?

E2B/E4B — для телефонов и edge, минимум ресурсов. 12B — мультимодальная (encoder-free), помещается на ноутбук с 16 ГБ. 26B MoE — баланс качества и эффективности. 31B Dense — максимум качества, но нужна серьёзная видеопамять. Под слабое железо берите E4B/12B, под качество на сервере — 31B.

Какие модальности поддерживает Gemma 4?

Все модели принимают на вход текст, изображения и видео; E2B/E4B поддерживают нативный аудиовход, а 12B обрабатывает изображения и звук вообще без отдельных энкодеров. Выход — текст. Контекстное окно — до 256K токенов, поддержка 140+ языков.

Работает ли Gemma 4 в России?

Да, без ограничений — это открытые веса под Apache 2.0: качаете с Hugging Face/Kaggle/Ollama и запускаете локально без аккаунтов и карт (VPN может понадобиться лишь для стабильной загрузки). Русский модель понимает (140+ языков), но на русском уступает специализированным моделям; из работающих в РФ облачных альтернатив — YandexGPT и GigaChat.