Ollama v0.30.0: архитектурная революция с llama.cpp и MLX

Когда рефакторинг важнее фич

Есть обновления, которые добавляют кнопочки и иконки. А есть такие, где команда тихо сносит фундамент и строит новый — пока пользователи продолжают работать. Ollama v0.30.0 — именно из второй категории. Релиз пока в статусе pre-release, но уже сейчас понятно: это один из самых значимых архитектурных сдвигов за всю историю проекта.

С 172 тысячами звёзд на GitHub и 16,2 тысячами форков Ollama — де-факто стандарт для локального запуска языковых моделей. И вот команда решилась на шаг, который технически подкованные пользователи ждали давно: убрать прослойку GGML и перейти к прямой интеграции с llama.cpp.

Что изменилось под капотом

Раньше Ollama строилась поверх GGML — библиотеки тензорных вычислений, на которой базируется llama.cpp. Это создавало лишний уровень абстракции: как если бы вы управляли автомобилем через посредника, который передаёт ваши команды водителю. Теперь Ollama разговаривает с llama.cpp напрямую.

Практические последствия этого решения — колоссальные. Во-первых, полная совместимость с форматом GGUF «из коробки». Любой файл, который работает с llama.cpp, теперь должен работать и с Ollama без танцев с бубном и конвертаций. Во-вторых, это открывает путь к более быстрой синхронизации с апстримом: когда llama.cpp получает оптимизацию или поддержку новой архитектуры модели, Ollama сможет подхватить это значительно быстрее.

Второй ключевой элемент v0.30.0 — интеграция Apple MLX для ускорения инференса на чипах Apple Silicon. MLX — это фреймворк машинного обучения от самой Apple, заточенный под M-серию процессоров. Если раньше Mac-пользователи получали ускорение через Metal (GPU-бэкенд llama.cpp), то теперь MLX добавляет ещё один эффективный путь для вычислений, особенно актуальный для новых моделей.

Почему это важно для разработчиков

Для тех, кто активно использует Ollama в своих пайплайнах, это обновление несёт смешанные новости. С одной стороны — потенциально лучшая производительность и более широкая экосистема моделей. С другой — архитектурные изменения такого масштаба почти всегда тащат за собой регрессии.

Команда Ollama честно об этом предупреждает и просит сообщество протестировать три вещи: изменения в производительности (ускорение или замедление), новые ошибки и крэши, а также изменения в потреблении памяти. Это зрелый подход к pre-release — вместо того чтобы делать вид, что всё идеально, разработчики прямо говорят: «мы переписали архитектуру, помогите найти баги».

Из известных ограничений текущего RC: laguna-xs.2 и llama3.2-vision пока не поддерживаются. Если вы активно используете vision-модели, с апгрейдом лучше подождать финального релиза.

Сравнение с конкурентами

В экосистеме локального запуска моделей у Ollama есть несколько конкурентов. LM Studio предлагает более удобный GUI и тоже использует llama.cpp под капотом, но закрытый исходный код ограничивает интеграцию. Jan.ai — open-source альтернатива с графическим интерфейсом. llama.cpp сам по себе — для тех, кто любит работать напрямую через CLI.

Переход Ollama к прямой поддержке llama.cpp фактически сокращает разрыв между «удобным инструментом» и «максимальной производительностью». Раньше продвинутые пользователи иногда предпочитали голый llama.cpp ради скорости. Теперь это преимущество нивелируется.

Для российских пользователей

Ollama работает в России без каких-либо ограничений — это полностью локальный инструмент, никакие данные никуда не отправляются. Установка через официальный скрипт доступна без VPN, GitHub также остаётся доступным. Оплата не требуется — проект полностью бесплатный и open-source.

Для установки pre-release версии на Mac/Linux достаточно одной команды с переменной окружения `OLLAMA_VERSION=0.30.0-rc20`. Windows-пользователи получают аналогичную возможность через PowerShell. Это удобно для тестирования без риска сломать продакшн-установку.

Мой взгляд на ситуацию

Я слежу за Ollama с ранних версий, и v0.30.0 — это именно тот технический долг, который команда наконец решила погасить. GGML как промежуточный слой создавал трения: задержки в поддержке новых моделей, потенциальные потери производительности, сложности с отладкой.

Прямая интеграция с llama.cpp — правильное решение, даже если оно требует временных жертв в виде регрессий. А MLX-ускорение на Apple Silicon — это признание реальности: значительная часть разработчиков, работающих с локальными моделями, сидит именно на MacBook Pro с M-чипами.

Если всё пройдёт гладко, финальный v0.30.0 может стать самым важным релизом Ollama за последние полтора года. Следите за обновлениями — и, если у вас есть тестовая среда, участвуйте в бета-тестировании. Такие проекты живут именно благодаря активному сообществу.

Ollama v0.30.0: архитектурная революция с llama.cpp и MLX

Когда рефакторинг важнее фич

Что изменилось под капотом

Почему это важно для разработчиков

Сравнение с конкурентами

Для российских пользователей

Мой взгляд на ситуацию

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ИИ нашёл 1500 критических уязвимостей за месяц: индустрия не справляется

Microsoft объединяет Copilot в супер-приложение с агентами AutoPilot

Microsoft вложит $2,5 млрд в отдельную компанию по внедрению ИИ