Gemma 4 12B: мультимодальный ИИ Google на обычном ноутбуке

Когда «большой» ИИ умещается в рюкзак

Ещё год назад запустить мультимодальную языковую модель на обычном MacBook казалось задачей из разряда «может быть, когда-нибудь». 3 июня 2026 года Google DeepMind сделала это «когда-нибудь» сегодняшним днём: Gemma 4 12B — полноценная мультимодальная модель, которая обрабатывает текст, изображения и аудио одновременно, и при этом умещается в 16 ГБ оперативной или видеопамяти.

Я слежу за линейкой Gemma с самого начала, и этот релиз — качественный скачок, а не косметическое обновление. Разберём, почему.

Архитектура без энкодеров: не маркетинг, а реальный прорыв

Большинство мультимодальных моделей устроены по принципу «конвейер»: отдельный энкодер переводит изображение в векторы, другой — аудио, и только потом всё это попадает в языковую модель. Такая схема добавляет латентность, жрёт память и создаёт архитектурные костыли.

Google DeepMind пошла другим путём. В Gemma 4 12B энкодеры убраны полностью. Для зрения — лёгкий модуль из одного матричного умножения, позиционного эмбеддинга и нормализации. Для аудио — сырой сигнал проецируется напрямую в то же пространство, что и текстовые токены. Никаких промежуточных трансформаций, никаких лишних слоёв.

Результат: меньше памяти, меньше задержек, более тесная интеграция модальностей. Это не просто «мы добавили картинки» — это принципиально иной способ думать о мультимодальности.

Производительность: меньше размер, почти те же результаты

Цифры говорят сами за себя. На бенчмарках GPQA Diamond, MMLU Pro и DocVQA Gemma 4 12B вплотную приближается к модели 26B — то есть к модели вдвое большего размера. При этом она уверенно обходит Gemma 3 27B — предыдущее поколение, которое было крупнее нынешней 12B.

Это то, что инженеры называют «пробивает выше своей весовой категории». Занимая меньше половины памяти от 26B MoE, модель даёт сопоставимые результаты в рассуждениях, понимании документов и профессиональных вопросах. Для локального запуска — это принципиально важно.

Отдельно стоит выделить Multi-Token Prediction (MTP) drafters — механизм спекулятивного декодирования, встроенный прямо в модель. Он снижает латентность при генерации, что критично для агентных сценариев, где модель должна быстро реагировать.

Что умеет: от видеоанализа до голосового редактирования

Gemma 4 12B — первая модель среднего размера в линейке Gemma с нативной обработкой аудио. На практике это открывает целый спектр применений:

- Видеоанализ: модель может разбирать многоминутные ролики, одновременно анализируя кадры и звук. В демо Google она обработала пятиминутный клип с Google I/O — 313 кадров с частотой один в секунду плюс аудиодорожку. - Распознавание речи и голосовое редактирование: приложение Google AI Edge Eloquent теперь работает на macOS полностью офлайн. Можно выделить абзац, сказать «переструктурируй в резюме для руководителя» — и получить результат без отправки данных в облако. По заявлению команды, качество выросло более чем на 60% по сравнению с предыдущими моделями. - Генерация и выполнение кода: через приложение Google AI Edge Gallery на macOS модель пишет Python-скрипты, запускает их локально и возвращает визуализации. В одном из демо она самостоятельно рендерила 3D-объект через trimesh, исправляя собственные ошибки в процессе.

Где запустить и как получить

Модель доступна на Hugging Face и Kaggle (веса для скачивания), а также через Ollama, LM Studio, llama.cpp, MLX, SGLang и vLLM. Лицензия — Apache 2.0, то есть коммерческое использование без ограничений.

Для российских разработчиков: Hugging Face в большинстве случаев доступен без VPN, Ollama — опенсорсный инструмент, работающий локально. Скачать модель и запустить её на своей машине можно без каких-либо платёжных данных или аккаунтов в американских сервисах — достаточно базовых инструментов разработчика.

Требования к железу: 16 ГБ unified memory (на Apple Silicon) или 16 ГБ VRAM (на дискретных GPU). MacBook Pro с M3 Pro/Max, любая RTX 4080/4090 или профессиональные карты уровня A10 — всё это подходит.

Контекст: 150 миллионов загрузок и конкуренция с Meta

Google сообщает, что семейство Gemma 4 перешагнуло отметку в 150 миллионов загрузок — цифра, демонстрирующая, что открытые модели компании действительно используются, а не просто существуют для галочки.

Главный конкурент в нише локальных открытых моделей — Llama 4 Scout от Meta, который тоже позиционируется как мультимодальная модель для локального запуска. Прямое сравнение бенчмарков покажет нюансы, но архитектурный подход Gemma 4 12B с отсутствием энкодеров — потенциально более эффективное решение с точки зрения памяти и скорости.

Что это значит для индустрии

Гемма 4 12B — это сигнал о том, что граница между «облачным ИИ» и «локальным ИИ» стремительно размывается. Ещё недавно мультимодальность была прерогативой дата-центров. Сегодня она запускается на ноутбуке в кафе.

Для бизнеса это означает возможность строить полностью офлайн-пайплайны с обработкой изображений, аудио и текста — без отправки чувствительных данных в облако. Для разработчиков — новый базовый уровень для агентных приложений. Для обычных пользователей — умный ассистент, который работает без интернета и не передаёт ваши разговоры никуда.

Информация о релизе подтверждена несколькими независимыми публикациями, включая официальный блог Google DeepMind и технические разборы специализированных изданий.

Gemma 4 12B: мультимодальный ИИ Google на обычном ноутбуке

Когда «большой» ИИ умещается в рюкзак

Архитектура без энкодеров: не маркетинг, а реальный прорыв

Производительность: меньше размер, почти те же результаты

Что умеет: от видеоанализа до голосового редактирования

Где запустить и как получить

Контекст: 150 миллионов загрузок и конкуренция с Meta

Что это значит для индустрии

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Claude Opus 4.8: тихий релиз, который меняет всё для AI-агентов

Microsoft Build 2026: обогнали Google в изображениях, догоняют в рассуждениях

GPT-5.5 и Codex теперь в AWS: OpenAI идёт к корпорациям