Google DeepMind выпустила Gemma 4 12B: мультимодальность без энкодеров

Архитектура, которая ломает привычную логику

Когда инженеры Google DeepMind говорят «encoder-free», это звучит как маркетинговый слоган. Но за этой фразой скрывается по-настоящему нетривиальное инженерное решение — и я объясню, почему это важно не только для исследователей, но и для тех, кто прямо сейчас строит продукты на локальных моделях.

Традиционные мультимодальные LLM работают по схеме «энкодер → коннектор → языковая модель». Изображение сначала обрабатывает визуальный трансформер (в средних моделях Gemma 4 он весит 550M параметров), аудио — отдельный аудиоэнкодер (300M параметров в E2B/E4B). Всё это добавляет латентность: языковая модель вынуждена ждать, пока энкодеры закончат свою работу. Gemma 4 12B убирает оба энкодера полностью.

Как это работает на практике

Для обработки изображений Google заменила 27-слойный визуальный трансформер крошечным модулем на 35M параметров. Сырые патчи размером 48×48 пикселей проецируются прямо в скрытое пространство LLM через одно матричное умножение. Пространственные координаты добавляются через факторизованный lookup по осям X и Y — без слоёв attention, без дополнительных весов.

Аудио обработали ещё радикальнее: сырой сигнал 16 кГц нарезается на кадры по 40 мс (640 значений каждый) и линейно проецируется в то же пространство, что и текстовые токены. Никаких conformer-слоёв, никакого отдельного ASR-пайплайна. Модель умеет транскрибировать речь, различать голоса разных спикеров (диаризация) и работать с видео — всё из единой архитектуры.

Практический эффект: LLM начинает обрабатывать мультимодальный ввод немедленно, не ожидая внешних энкодеров. Это снижает латентность и упрощает файн-тюнинг — адаптеры вроде LoRA теперь обновляют сразу все модальности за один проход, без необходимости работать вокруг «замороженных» энкодеров.

Производительность и место в экосистеме

Gemma 4 12B закрывает пробел между edge-моделью E4B и 26B MoE-вариантом. Google заявляет, что по бенчмаркам 12B-модель приближается к 26B при вдвое меньшем объёме памяти. Полные результаты бенчмарков на момент анонса не опубликованы, но сам факт сравнения с 26B MoE — заявка серьёзная.

Для запуска достаточно 16 ГБ VRAM или унифицированной памяти — то есть модель работает на потребительских GPU-ноутбуках и Apple Silicon Mac. Это первая среднеразмерная модель Gemma с нативным аудио. Лицензия — Apache 2.0, веса доступны на Hugging Face и Kaggle (instruct-вариант: `google/gemma-4-12b-it`).

Вместе с моделью выходит отдельный Multi-Token Prediction (MTP) drafter — специальный компонент для снижения латентности при локальном инференсе. Поддерживаемый стек: llama.cpp, MLX, vLLM, Ollama, SGLang, Unsloth, LM Studio, Hugging Face Transformers.

Что это значит для разработчиков и стартапов

Сообщество на r/LocalLLaMA уже активно обсуждает квантизованные сборки и сравнивает с Qwen. Один из пользователей описал опыт: «я использовал её для написания Python-приложения с серверной и клиентской частью — поражён тем, насколько хорошо она справляется». Другие отмечают, что энкодер-free архитектура позволяет передавать изображения и аудио без дополнительных файлов, а обучение с учётом этих модальностей с нуля делает модель точнее в мультимодальных задачах.

Для стартапов это меняет конкретный вопрос: нужно ли отправлять каждый визуальный или аудио-запрос на внешний API? Автоматизация документов, анализ звонков поддержки, полевая диагностика по фото, медицинский intake — это реальные бизнес-процессы, где данные клиентов чувствительны, а латентность критична. Единый стек для текста, изображений и аудио убирает необходимость поддерживать три разных пайплайна.

Модели Gemma 4 в совокупности преодолели отметку 150 миллионов загрузок — сообщество уже строит на них всё от носимых роботизированных протезов до корпоративных систем безопасности.

Работает ли в России

Модель распространяется через Hugging Face и Kaggle — оба сервиса доступны в РФ, хотя периодически требуют VPN для стабильной работы. Запуск через Ollama или llama.cpp локально не требует никаких внешних подключений после скачивания весов. Google AI Edge Gallery и облачные сервисы Google могут потребовать VPN и зарубежную карту.

Сравнение с конкурентами

Qwen 2.5 и Mistral Small 3.1 — ближайшие конкуренты по размеру, но ни один из них не предлагает нативной аудиообработки без внешних энкодеров в одной архитектуре. LLaVA-подобные модели используют классическую схему с отдельным визуальным энкодером. Gemma 4 12B в этом смысле ближе к тому, что пытается сделать Llama 4 с нативной мультимодальностью, но Google вышла с конкретным продуктом, работающим на потребительском железе уже сейчас.

Инженерное решение элегантное: меньше параметров на периферии, больше «интеллекта» внутри самого трансформера. Посмотрим, как сообщество адаптирует эту архитектуру для файн-тюнинга на специализированных доменах — здесь потенциал действительно большой.

Информация подтверждена несколькими независимыми публикациями технических изданий и разработчиков.

Google DeepMind выпустила Gemma 4 12B: мультимодальность без энкодеров

Архитектура, которая ломает привычную логику

Как это работает на практике

Производительность и место в экосистеме

Что это значит для разработчиков и стартапов

Работает ли в России

Сравнение с конкурентами

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

NotebookLM получил Gemini 3.5 и Antigravity: крупнейший апгрейд за всю историю

WWDC 2026: Apple перезапускает Siri, iOS 27 и всё, что важно знать

NotebookLM обновился: Gemini 3.5, облачный компьютер и умный поиск