Gemma 4 12B: мультимодальный ИИ Google на обычном ноутбуке

Когда «большой» ИИ умещается в рюкзак
Ещё год назад запустить мультимодальную языковую модель на обычном MacBook казалось задачей из разряда «может быть, когда-нибудь». 3 июня 2026 года Google DeepMind сделала это «когда-нибудь» сегодняшним днём: Gemma 4 12B — полноценная мультимодальная модель, которая обрабатывает текст, изображения и аудио одновременно, и при этом умещается в 16 ГБ оперативной или видеопамяти.
Я слежу за линейкой Gemma с самого начала, и этот релиз — качественный скачок, а не косметическое обновление. Разберём, почему.
Архитектура без энкодеров: не маркетинг, а реальный прорыв
Большинство мультимодальных моделей устроены по принципу «конвейер»: отдельный энкодер переводит изображение в векторы, другой — аудио, и только потом всё это попадает в языковую модель. Такая схема добавляет латентность, жрёт память и создаёт архитектурные костыли.
Google DeepMind пошла другим путём. В Gemma 4 12B энкодеры убраны полностью. Для зрения — лёгкий модуль из одного матричного умножения, позиционного эмбеддинга и нормализации. Для аудио — сырой сигнал проецируется напрямую в то же пространство, что и текстовые токены. Никаких промежуточных трансформаций, никаких лишних слоёв.
Результат: меньше памяти, меньше задержек, более тесная интеграция модальностей. Это не просто «мы добавили картинки» — это принципиально иной способ думать о мультимодальности.
Производительность: меньше размер, почти те же результаты
Цифры говорят сами за себя. На бенчмарках GPQA Diamond, MMLU Pro и DocVQA Gemma 4 12B вплотную приближается к модели 26B — то есть к модели вдвое большего размера. При этом она уверенно обходит Gemma 3 27B — предыдущее поколение, которое было крупнее нынешней 12B.
Это то, что инженеры называют «пробивает выше своей весовой категории». Занимая меньше половины памяти от 26B MoE, модель даёт сопоставимые результаты в рассуждениях, понимании документов и профессиональных вопросах. Для локального запуска — это принципиально важно.
Отдельно стоит выделить Multi-Token Prediction (MTP) drafters — механизм спекулятивного декодирования, встроенный прямо в модель. Он снижает латентность при генерации, что критично для агентных сценариев, где модель должна быстро реагировать.
Что умеет: от видеоанализа до голосового редактирования
Gemma 4 12B — первая модель среднего размера в линейке Gemma с нативной обработкой аудио. На практике это открывает целый спектр применений:
- Видеоанализ: модель может разбирать многоминутные ролики, одновременно анализируя кадры и звук. В демо Google она обработала пятиминутный клип с Google I/O — 313 кадров с частотой один в секунду плюс аудиодорожку. - Распознавание речи и голосовое редактирование: приложение Google AI Edge Eloquent теперь работает на macOS полностью офлайн. Можно выделить абзац, сказать «переструктурируй в резюме для руководителя» — и получить результат без отправки данных в облако. По заявлению команды, качество выросло более чем на 60% по сравнению с предыдущими моделями. - Генерация и выполнение кода: через приложение Google AI Edge Gallery на macOS модель пишет Python-скрипты, запускает их локально и возвращает визуализации. В одном из демо она самостоятельно рендерила 3D-объект через trimesh, исправляя собственные ошибки в процессе.
Где запустить и как получить
Модель доступна на Hugging Face и Kaggle (веса для скачивания), а также через Ollama, LM Studio, llama.cpp, MLX, SGLang и vLLM. Лицензия — Apache 2.0, то есть коммерческое использование без ограничений.
Для российских разработчиков: Hugging Face в большинстве случаев доступен без VPN, Ollama — опенсорсный инструмент, работающий локально. Скачать модель и запустить её на своей машине можно без каких-либо платёжных данных или аккаунтов в американских сервисах — достаточно базовых инструментов разработчика.
Требования к железу: 16 ГБ unified memory (на Apple Silicon) или 16 ГБ VRAM (на дискретных GPU). MacBook Pro с M3 Pro/Max, любая RTX 4080/4090 или профессиональные карты уровня A10 — всё это подходит.
Контекст: 150 миллионов загрузок и конкуренция с Meta
Google сообщает, что семейство Gemma 4 перешагнуло отметку в 150 миллионов загрузок — цифра, демонстрирующая, что открытые модели компании действительно используются, а не просто существуют для галочки.
Главный конкурент в нише локальных открытых моделей — Llama 4 Scout от Meta, который тоже позиционируется как мультимодальная модель для локального запуска. Прямое сравнение бенчмарков покажет нюансы, но архитектурный подход Gemma 4 12B с отсутствием энкодеров — потенциально более эффективное решение с точки зрения памяти и скорости.
Что это значит для индустрии
Гемма 4 12B — это сигнал о том, что граница между «облачным ИИ» и «локальным ИИ» стремительно размывается. Ещё недавно мультимодальность была прерогативой дата-центров. Сегодня она запускается на ноутбуке в кафе.
Для бизнеса это означает возможность строить полностью офлайн-пайплайны с обработкой изображений, аудио и текста — без отправки чувствительных данных в облако. Для разработчиков — новый базовый уровень для агентных приложений. Для обычных пользователей — умный ассистент, который работает без интернета и не передаёт ваши разговоры никуда.
Информация о релизе подтверждена несколькими независимыми публикациями, включая официальный блог Google DeepMind и технические разборы специализированных изданий.
Похожие новости
Claude Opus 4.8: тихий релиз, который меняет всё для AI-агентов
Anthropic выпустила Claude Opus 4.8 — и это не просто патч. Новая модель переписывает правила надёжности агентных систем: в 4 раза меньше молчаливых ошибок, скорость ×2.5 и цена втрое ниже.
Microsoft Build 2026: обогнали Google в изображениях, догоняют в рассуждениях
Microsoft представила семь собственных ИИ-моделей, включая первую reasoning-модель MAI-Thinking-1 и агента Scout — и впервые обошла Google в генерации изображений.
GPT-5.5 и Codex теперь в AWS: OpenAI идёт к корпорациям
OpenAI открыла доступ к GPT-5.5, GPT-5.4 и Codex через Amazon Bedrock — по тем же ценам, что и на собственной платформе. Корпорации получают ИИ прямо в привычной инфраструктуре.