Google DeepMind выпустила Gemma 4 12B: мультимодальность без энкодеров

Архитектура, которая ломает привычную логику
Когда инженеры Google DeepMind говорят «encoder-free», это звучит как маркетинговый слоган. Но за этой фразой скрывается по-настоящему нетривиальное инженерное решение — и я объясню, почему это важно не только для исследователей, но и для тех, кто прямо сейчас строит продукты на локальных моделях.
Традиционные мультимодальные LLM работают по схеме «энкодер → коннектор → языковая модель». Изображение сначала обрабатывает визуальный трансформер (в средних моделях Gemma 4 он весит 550M параметров), аудио — отдельный аудиоэнкодер (300M параметров в E2B/E4B). Всё это добавляет латентность: языковая модель вынуждена ждать, пока энкодеры закончат свою работу. Gemma 4 12B убирает оба энкодера полностью.
Как это работает на практике
Для обработки изображений Google заменила 27-слойный визуальный трансформер крошечным модулем на 35M параметров. Сырые патчи размером 48×48 пикселей проецируются прямо в скрытое пространство LLM через одно матричное умножение. Пространственные координаты добавляются через факторизованный lookup по осям X и Y — без слоёв attention, без дополнительных весов.
Аудио обработали ещё радикальнее: сырой сигнал 16 кГц нарезается на кадры по 40 мс (640 значений каждый) и линейно проецируется в то же пространство, что и текстовые токены. Никаких conformer-слоёв, никакого отдельного ASR-пайплайна. Модель умеет транскрибировать речь, различать голоса разных спикеров (диаризация) и работать с видео — всё из единой архитектуры.
Практический эффект: LLM начинает обрабатывать мультимодальный ввод немедленно, не ожидая внешних энкодеров. Это снижает латентность и упрощает файн-тюнинг — адаптеры вроде LoRA теперь обновляют сразу все модальности за один проход, без необходимости работать вокруг «замороженных» энкодеров.
Производительность и место в экосистеме
Gemma 4 12B закрывает пробел между edge-моделью E4B и 26B MoE-вариантом. Google заявляет, что по бенчмаркам 12B-модель приближается к 26B при вдвое меньшем объёме памяти. Полные результаты бенчмарков на момент анонса не опубликованы, но сам факт сравнения с 26B MoE — заявка серьёзная.
Для запуска достаточно 16 ГБ VRAM или унифицированной памяти — то есть модель работает на потребительских GPU-ноутбуках и Apple Silicon Mac. Это первая среднеразмерная модель Gemma с нативным аудио. Лицензия — Apache 2.0, веса доступны на Hugging Face и Kaggle (instruct-вариант: `google/gemma-4-12b-it`).
Вместе с моделью выходит отдельный Multi-Token Prediction (MTP) drafter — специальный компонент для снижения латентности при локальном инференсе. Поддерживаемый стек: llama.cpp, MLX, vLLM, Ollama, SGLang, Unsloth, LM Studio, Hugging Face Transformers.
Что это значит для разработчиков и стартапов
Сообщество на r/LocalLLaMA уже активно обсуждает квантизованные сборки и сравнивает с Qwen. Один из пользователей описал опыт: «я использовал её для написания Python-приложения с серверной и клиентской частью — поражён тем, насколько хорошо она справляется». Другие отмечают, что энкодер-free архитектура позволяет передавать изображения и аудио без дополнительных файлов, а обучение с учётом этих модальностей с нуля делает модель точнее в мультимодальных задачах.
Для стартапов это меняет конкретный вопрос: нужно ли отправлять каждый визуальный или аудио-запрос на внешний API? Автоматизация документов, анализ звонков поддержки, полевая диагностика по фото, медицинский intake — это реальные бизнес-процессы, где данные клиентов чувствительны, а латентность критична. Единый стек для текста, изображений и аудио убирает необходимость поддерживать три разных пайплайна.
Модели Gemma 4 в совокупности преодолели отметку 150 миллионов загрузок — сообщество уже строит на них всё от носимых роботизированных протезов до корпоративных систем безопасности.
Работает ли в России
Модель распространяется через Hugging Face и Kaggle — оба сервиса доступны в РФ, хотя периодически требуют VPN для стабильной работы. Запуск через Ollama или llama.cpp локально не требует никаких внешних подключений после скачивания весов. Google AI Edge Gallery и облачные сервисы Google могут потребовать VPN и зарубежную карту.
Сравнение с конкурентами
Qwen 2.5 и Mistral Small 3.1 — ближайшие конкуренты по размеру, но ни один из них не предлагает нативной аудиообработки без внешних энкодеров в одной архитектуре. LLaVA-подобные модели используют классическую схему с отдельным визуальным энкодером. Gemma 4 12B в этом смысле ближе к тому, что пытается сделать Llama 4 с нативной мультимодальностью, но Google вышла с конкретным продуктом, работающим на потребительском железе уже сейчас.
Инженерное решение элегантное: меньше параметров на периферии, больше «интеллекта» внутри самого трансформера. Посмотрим, как сообщество адаптирует эту архитектуру для файн-тюнинга на специализированных доменах — здесь потенциал действительно большой.
Информация подтверждена несколькими независимыми публикациями технических изданий и разработчиков.
Похожие новости
NotebookLM получил Gemini 3.5 и Antigravity: крупнейший апгрейд за всю историю
Google переводит свой исследовательский инструмент на новейшую модель Gemini 3.5 и встраивает Antigravity — теперь NotebookLM пишет и запускает код прямо внутри ноутбука.
WWDC 2026: Apple перезапускает Siri, iOS 27 и всё, что важно знать
Тим Кук провёл последний WWDC в роли CEO: Apple представила Siri AI на базе Google Gemini, iOS 27 для iPhone 11+ и прорывную функцию Spatial Reframing.
NotebookLM обновился: Gemini 3.5, облачный компьютер и умный поиск
Google кардинально переработала NotebookLM: новый движок Gemini 3.5, выполнение кода в облаке и автоматический поиск источников прямо в чате.