Ollama v0.30.6: Gemma 4 с QAT-оптимизацией запускается на слабом железе

Тихий релиз с громкими последствиями

Пока все обсуждают очередные облачные мегамодели, команда Ollama делает своё дело — приземляет передовые нейросети на обычное железо. Версия v0.30.6, вышедшая 5 июня 2026 года, принесла кое-что действительно важное: QAT-оптимизированные веса для всей семейки Gemma 4 от Google. Это не косметическое обновление — это принципиальный сдвиг в том, кто и на чём сможет запускать эти модели.

Что такое QAT и почему это меняет игру

Quantization-Aware Training — это не просто «обычное квантование после обучения». Разница принципиальная. Стандартный подход (post-training quantization) берёт готовую модель и грубо режет точность весов, теряя качество. QAT же встраивает квантование прямо в процесс обучения: модель учится компенсировать потери точности ещё на этапе тренировки. Результат — веса, которые занимают в 2-4 раза меньше памяти, при этом деградация качества минимальна по сравнению с оригиналом.

Для Gemma 4 это означает следующее: модель на 31 млрд параметров (gemma4:31b-it-qat) теперь реально запускается на машинах, которые раньше могли осилить максимум 12B. Это не маркетинг — это математика квантования.

Полная линейка QAT-вариантов

Ollama добавила QAT-теги для пяти конфигураций Gemma 4:

- gemma4:e2b-it-qat — компактная 2B-модель, буквально для любого ноутбука - gemma4:e4b-it-qat — 4B, оптимальный баланс скорости и качества - gemma4:12b-it-qat — флагманская мультимодальная конфигурация - gemma4:26b-a4b-it-qat — MoE-архитектура с активными 4B параметрами - gemma4:31b-it-qat — топовый вариант для тех, у кого есть нормальная видеокарта

Обращу внимание на тег 26b-a4b — это Mixture of Experts с 26B общих параметров, но всего 4B активных при инференсе. С QAT такая модель становится совсем доступной по памяти, при этом качество рассуждений у MoE-архитектур традиционно выше, чем у dense-моделей того же «активного» размера.

Другие улучшения релиза

Помимо Gemma 4 QAT, в v0.30.6 есть два технически интересных изменения.

Первое — интеграция Oh My Pi через механизм `ollama launch omp`. Oh My Pi — это AI-агент для написания кода с интеграцией в IDE. По сути, Ollama теперь может запускать полноценный coding-агент локально одной командой. Для разработчиков, которые не хотят отправлять свой код в облако (корпоративные политики, NDA, просто паранойя — всё это реальные причины), это весомый аргумент.

Второе — улучшение квантования MLX embedding layers на Apple Silicon: теперь используется NVFP4 global scale. Для владельцев Mac с M-чипами это означает более точные эмбеддинги при том же потреблении памяти. Мелочь? На первый взгляд. Но для RAG-систем и семантического поиска качество эмбеддингов критично.

Контекст: Ollama последние недели активно патчила Gemma 4

Если посмотреть на историю релизов, картина показательная. В версии v0.30.3 добавили первичную поддержку gemma4-12b. В v0.30.4 и v0.30.5 команда интенсивно чинила краши — в том числе знаменитый divide-by-zero в мультимодальном проекторе на x86/CUDA/Linux/Windows (баг в llama.cpp b9509, затрагивал n_head=0). То есть Gemma 4 буквально «допиливали» прямо в production на протяжении нескольких дней. Это не критика — это честная история того, как живое open-source сообщество работает с только что вышедшими моделями.

Теперь, когда стабильность достигнута, логично выкатить QAT-веса — первичные краши устранены, можно давать пользователям оптимизированные версии.

Что это значит для российских пользователей

Ollama — полностью локальное решение. Никаких облаков, никаких аккаунтов, никаких VPN. Скачал, запустил, используешь. Модели тянутся с Ollama Library (registry.ollama.ai) — этот ресурс доступен из России без каких-либо ухищрений. QAT-веса, очевидно, меньше по размеру, чем оригинальные веса в FP16 или BF16 — значит, и скачивать их быстрее.

Для тех, кто хочет попробовать: `ollama pull gemma4:12b-it-qat` — и через несколько минут у вас локально работает мощная мультимодальная модель, способная анализировать изображения и вести сложные диалоги.

Конкуренты не дремлют, но Ollama держит темп

LM Studio, llama.cpp напрямую, Jan — всё это альтернативы для локального запуска моделей. Но Ollama выигрывает за счёт простоты: одна команда, и модель работает. При этом экосистема растёт — интеграция с Oh My Pi показывает, что платформа движется от «просто запустить модель» к «полноценной локальной AI-инфраструктуре».

QAT-оптимизация Gemma 4 — это прямой конкурентный ответ на GGUF-квантованные версии от llama.cpp сообщества. Принципиальная разница: GGUF-квантование делают энтузиасты после релиза модели, а QAT-веса — это официальный продукт Google, оптимизированный на уровне обучения. Качество, как правило, выше.

Итог

Ollama v0.30.6 — не революция, но очень грамотный эволюционный шаг. QAT-веса для Gemma 4 демократизируют доступ к качественным моделям на обычном железе. Интеграция с Oh My Pi намекает на амбиции в сторону полноценных AI-агентов локального уровня. А улучшения для Apple Silicon показывают, что команда не забывает о Mac-пользователях, которых в developer-сообществе немало.

Информация о релизе подтверждена несколькими независимыми публикациями и официальным changelog проекта.

Ollama v0.30.6: Gemma 4 с QAT-оптимизацией запускается на слабом железе

Тихий релиз с громкими последствиями

Что такое QAT и почему это меняет игру

Полная линейка QAT-вариантов

Другие улучшения релиза

Контекст: Ollama последние недели активно патчила Gemma 4

Что это значит для российских пользователей

Конкуренты не дремлют, но Ollama держит темп

Итог

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Qwen3.7-Plus от Alibaba: ИИ-агент, который пишет 10 000 строк кода сам

Anthropic: Claude пишет 90% кода компании и требует глобальную кнопку паузы

Microsoft Build 2026: 7 главных анонсов, которые меняют всё