Ollama v0.30.0: архитектурная революция с llama.cpp и MLX

Когда рефакторинг важнее фич
Есть обновления, которые добавляют кнопочки и иконки. А есть такие, где команда тихо сносит фундамент и строит новый — пока пользователи продолжают работать. Ollama v0.30.0 — именно из второй категории. Релиз пока в статусе pre-release, но уже сейчас понятно: это один из самых значимых архитектурных сдвигов за всю историю проекта.
С 172 тысячами звёзд на GitHub и 16,2 тысячами форков Ollama — де-факто стандарт для локального запуска языковых моделей. И вот команда решилась на шаг, который технически подкованные пользователи ждали давно: убрать прослойку GGML и перейти к прямой интеграции с llama.cpp.
Что изменилось под капотом
Раньше Ollama строилась поверх GGML — библиотеки тензорных вычислений, на которой базируется llama.cpp. Это создавало лишний уровень абстракции: как если бы вы управляли автомобилем через посредника, который передаёт ваши команды водителю. Теперь Ollama разговаривает с llama.cpp напрямую.
Практические последствия этого решения — колоссальные. Во-первых, полная совместимость с форматом GGUF «из коробки». Любой файл, который работает с llama.cpp, теперь должен работать и с Ollama без танцев с бубном и конвертаций. Во-вторых, это открывает путь к более быстрой синхронизации с апстримом: когда llama.cpp получает оптимизацию или поддержку новой архитектуры модели, Ollama сможет подхватить это значительно быстрее.
Второй ключевой элемент v0.30.0 — интеграция Apple MLX для ускорения инференса на чипах Apple Silicon. MLX — это фреймворк машинного обучения от самой Apple, заточенный под M-серию процессоров. Если раньше Mac-пользователи получали ускорение через Metal (GPU-бэкенд llama.cpp), то теперь MLX добавляет ещё один эффективный путь для вычислений, особенно актуальный для новых моделей.
Почему это важно для разработчиков
Для тех, кто активно использует Ollama в своих пайплайнах, это обновление несёт смешанные новости. С одной стороны — потенциально лучшая производительность и более широкая экосистема моделей. С другой — архитектурные изменения такого масштаба почти всегда тащат за собой регрессии.
Команда Ollama честно об этом предупреждает и просит сообщество протестировать три вещи: изменения в производительности (ускорение или замедление), новые ошибки и крэши, а также изменения в потреблении памяти. Это зрелый подход к pre-release — вместо того чтобы делать вид, что всё идеально, разработчики прямо говорят: «мы переписали архитектуру, помогите найти баги».
Из известных ограничений текущего RC: laguna-xs.2 и llama3.2-vision пока не поддерживаются. Если вы активно используете vision-модели, с апгрейдом лучше подождать финального релиза.
Сравнение с конкурентами
В экосистеме локального запуска моделей у Ollama есть несколько конкурентов. LM Studio предлагает более удобный GUI и тоже использует llama.cpp под капотом, но закрытый исходный код ограничивает интеграцию. Jan.ai — open-source альтернатива с графическим интерфейсом. llama.cpp сам по себе — для тех, кто любит работать напрямую через CLI.
Переход Ollama к прямой поддержке llama.cpp фактически сокращает разрыв между «удобным инструментом» и «максимальной производительностью». Раньше продвинутые пользователи иногда предпочитали голый llama.cpp ради скорости. Теперь это преимущество нивелируется.
Для российских пользователей
Ollama работает в России без каких-либо ограничений — это полностью локальный инструмент, никакие данные никуда не отправляются. Установка через официальный скрипт доступна без VPN, GitHub также остаётся доступным. Оплата не требуется — проект полностью бесплатный и open-source.
Для установки pre-release версии на Mac/Linux достаточно одной команды с переменной окружения `OLLAMA_VERSION=0.30.0-rc20`. Windows-пользователи получают аналогичную возможность через PowerShell. Это удобно для тестирования без риска сломать продакшн-установку.
Мой взгляд на ситуацию
Я слежу за Ollama с ранних версий, и v0.30.0 — это именно тот технический долг, который команда наконец решила погасить. GGML как промежуточный слой создавал трения: задержки в поддержке новых моделей, потенциальные потери производительности, сложности с отладкой.
Прямая интеграция с llama.cpp — правильное решение, даже если оно требует временных жертв в виде регрессий. А MLX-ускорение на Apple Silicon — это признание реальности: значительная часть разработчиков, работающих с локальными моделями, сидит именно на MacBook Pro с M-чипами.
Если всё пройдёт гладко, финальный v0.30.0 может стать самым важным релизом Ollama за последние полтора года. Следите за обновлениями — и, если у вас есть тестовая среда, участвуйте в бета-тестировании. Такие проекты живут именно благодаря активному сообществу.
Источники
Похожие новости
Cursor выпустил Composer 2.5 на базе китайской Kimi — дешевле GPT в 6 раз
Редактор кода Cursor представил модель Composer 2.5, построенную на основе китайской Kimi K2.5. Цена — $0.5 за миллион токенов против $5 у GPT-5.5, но компания умолчала об этом до разоблачения.
PaddleOCR 3.5: теперь OCR запускается на движке Transformers
PaddleOCR 3.5 позволяет запускать распознавание текста и парсинг документов через Hugging Face Transformers — один параметр меняет всё.
ИИ научился взламывать браузеры: Claude Mythos против GPT-5.5
Исследователи CMU создали бенчмарк, где ИИ-агенты самостоятельно разрабатывают эксплойты для реальных уязвимостей. Mythos опережает GPT-5.5, но стоит в 12 раз дороже.