M
ИИ-чатMoonshot AIPrfaaSLLM-инференсKVCacheгибридные модели

PrfaaS: как Moonshot AI научила LLM работать между дата-центрами

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
PrfaaS: как Moonshot AI научила LLM работать между дата-центрами

Проблема, о которой никто не говорил вслух

Если вы когда-нибудь задумывались, почему крупные языковые модели обслуживаются именно так, как они обслуживаются — с жёсткой привязкой всех GPU к одному зданию, одной сети, иногда почти к одному шкафу — то ответ прозаичен: физика сетей. RDMA-соединения, на которых держится современный LLM-инференс, не прощают расстояния. Перенести вычисления prefill в соседний дата-центр? Раньше это звучало как анекдот.

Теперь — нет. Команда из Moonshot AI (создатели Kimi) совместно с исследователями Университета Цинхуа представила архитектуру PrfaaS (Prefill-as-a-Service) — и, судя по цифрам, это не просто академическое упражнение.

Зачем вообще разделять prefill и decode

Для тех, кто не погружён в кухню LLM-инференса: любой запрос к языковой модели проходит две фазы. Сначала prefill — модель «переваривает» весь входящий контекст и создаёт KVCache. Это вычислительно тяжёлая операция. Потом decode — генерация ответа токен за токеном, где узкое место уже не CPU/GPU-вычисления, а пропускная способность памяти.

Разделить эти две фазы на разное железо (PD-disaggregation) — давно известная идея. Проблема в том, что prefill порождает огромный KVCache, который нужно передать на decode-машины до начала генерации. Для классических моделей с Grouped Query Attention (GQA) это буквально ~60 Гбит/с на один запрос в 32K токенов на инстансе из 8×H200. Такой поток данных требует RDMA-сети уровня одного дата-центра. Никакой обычный Ethernet между площадками не справится.

Что изменилось: гибридное внимание как ключ

И вот тут в игру входит архитектурный тренд, который тихо менял правила последние полтора года. Новое поколение моделей — Kimi Linear, MiMo-V2-Flash, Qwen3.5-397B, Ring-2.5-1T — использует гибридные стеки внимания: несколько слоёв полного attention чередуются с линейными или ограниченными по окну слоями (KDA, MLA, SWA).

Ключ в том, что KVCache масштабируется с длиной контекста только для full-attention слоёв. Линейные слои хранят фиксированное по размеру рекуррентное состояние, которое практически ничего не весит. Результат? MiMo-V2-Flash генерирует KVCache со скоростью 4.66 Гбит/с против 59.93 Гбит/с у классической MiniMax-M2.5 — это снижение в 13 раз. Для Ring-2.5-1T сжатие ещё агрессивнее: MLA даёт 4.5× сжатие по сравнению с GQA, а соотношение гибридных слоёв 7:1 добавляет ещё ~8×.

При таких объёмах обычный Ethernet между дата-центрами уже справляется. Дверь открылась.

Как работает PrfaaS

Архитектура PrfaaS строится на простой, но изящной идее: выделить отдельные prefill-кластеры с плотными вычислительными ресурсами (H200 GPU), которые занимаются исключительно обработкой входного контекста. Результирующий KVCache передаётся по обычному Ethernet в локальные PD-кластеры (H20 GPU) для декодинга.

Географическое разделение — не баг, а фича. Prefill-кластеры можно размещать там, где дешевле электричество или доступнее нужное железо, не привязываясь к тому же зданию, где стоят decode-машины. Это меняет экономику масштабирования принципиально.

В кейс-стади на внутренней модели с 1 триллионом параметров (гибридная архитектура) результаты впечатляют: - +54% к пропускной способности по сравнению с однородным PD-baseline - +32% по сравнению с наивным гетерогенным подходом - При сравнении при одинаковой стоимости железа — +15% (честная цифра, без эффекта апгрейда GPU)

Почему это важно для индустрии

Честно говоря, 15% при равных затратах — это не революция сама по себе. Но PrfaaS открывает нечто большее: новую степень свободы в топологии инфраструктуры. Сейчас крупные провайдеры вынуждены концентрировать всё железо в одном месте, что создаёт узкие места в поставках GPU, регуляторные риски и проблемы с геолатентностью для пользователей.

Возможность разнести prefill и decode по разным площадкам — это фактически новый рынок для облачных провайдеров. Представьте: «prefill-фермы» в юрисдикциях с дешёвой электроэнергией и свежими H200, а decode-кластеры — ближе к конечным пользователям. Это архитектура CDN, но для LLM-инференса.

Для сравнения: Google с TPU-кластерами и Microsoft с Azure-инфраструктурой под OpenAI пока держатся за монолитные дата-центры. Если гибридные модели типа Kimi или Qwen3 продолжат набирать популярность, PrfaaS-подход может стать серьёзным конкурентным преимуществом для тех, кто его примет первым.

Российский контекст

Для российских компаний, которые строят собственную LLM-инфраструктуру или арендуют GPU-мощности, идея PrfaaS особенно актуальна. Дефицит H100/H200 в РФ никуда не делся, а гетерогенные кластеры из разного железа — скорее норма, чем исключение. Возможность физически разделить prefill (на более мощных GPU, пусть и в другом ЦОД) и decode (на более доступном железе рядом) — это практический инструмент оптимизации, а не абстрактная академия.

Преprint доступен на arXiv, код и детали реализации, судя по всему, ещё в процессе публикации — типичная история для исследований такого уровня.

Что дальше

PrfaaS — это сигнал, что эпоха монолитного LLM-инференса заканчивается. Гибридные архитектуры внимания делают межсетевую передачу KVCache реалистичной, а значит, инфраструктура для LLM будет эволюционировать в сторону распределённых, географически разнесённых систем. Кто первым выстроит такую архитектуру в продакшне — тот и задаст следующий стандарт.

Источники

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости