Gemma 4
Открытое семейство моделей Google (2 апреля 2026, Apache 2.0): от Effective 2B/4B для телефонов до 26B MoE и 31B Dense, плюс мультимодальная 12B без энкодеров (3 июня). Контекст до 256K, 140+ языков, мультимодальный вход. Флагман 31B входит в топ-3 Arena среди текстовых моделей, обходя кратно более крупных конкурентов.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Google DeepMind
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Веса на Hugging Face, Kaggle, Ollama (Apache 2.0)
- Коммерческое использование без ограничений
- Размеры под любое железо — от телефона до сервера
- Запуск через llama.cpp / vLLM / LM Studio / MLX
- Managed-эндпоинт без своего железа
- Масштабирование и SLA
- Интеграция с экосистемой Google Cloud
Плюсы и минусы
Подробный обзор
Что такое Gemma 4
Gemma 4 — новое поколение открытых моделей Google DeepMind, выпущенное 2 апреля 2026 года под свободной лицензией Apache 2.0. Это «младшие братья» закрытой линейки Gemini: те же исследования и технологии, но с открытыми весами, которые можно скачать и запускать у себя. Главный тезис Google — «byte for byte, самые способные открытые модели»: при сопоставимом размере Gemma 4 выжимает больше качества, чем конкуренты.
Линейка размеров
- Effective 2B / 4B (E2B/E4B) — компактные модели для телефонов и edge, с нативным аудио на входе
- 12B (3 июня 2026) — мультимодальная модель с encoder-free архитектурой: обрабатывает изображения и звук без отдельных энкодеров, помещается на ноутбук с 16 ГБ памяти
- 26B MoE — Mixture-of-Experts, #6 в Arena среди текстовых моделей
- 31B Dense — флагман: #3 в Arena, 85.2% на MMLU Pro и 89.2% на AIME 2026, обходит кратно более крупные модели
Все модели принимают изображения и видео на входе, держат контекст до 256K токенов и понимают 140+ языков, включая русский.
Где запускать
Gemma 4 — это веса, а не готовое приложение. День-в-день она поддержана почти всем экосистемным стеком: Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM, SGLang и др. Маленькие E2B/E4B и 12B запускаются на потребительском железе и даже телефонах; старшие 26B/31B требуют серьёзной видеопамяти. Для запуска без своего железа есть managed-доступ через Google Cloud (Vertex AI).
Доступность в России
Модели работают в России без ограничений — это открытые веса под Apache 2.0: скачиваете с Hugging Face, Kaggle или через Ollama (иногда нужен VPN для стабильной загрузки) и запускаете локально без аккаунтов, карт и подписок. Поддержка 140+ языков означает, что русский Gemma 4 понимает, хотя по качеству на русском уступает специализированным моделям. Из работающих в России облачных русскоязычных альтернатив — YandexGPT и GigaChat.