T
ИИ-чатTogether AIOSCARKV-кэшквантованиеLLM-инфраструктура

Together AI открывает OSCAR: сжатие KV-кэша до 2 бит без потери точности

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
Together AI открывает OSCAR: сжатие KV-кэша до 2 бит без потери точности

Проблема, о которой не принято говорить вслух

Есть вещи в мире LLM-инфраструктуры, которые выглядят скучно на слайдах, но именно они определяют, сколько стоит запрос к вашей любимой нейросети. KV-кэш — один из таких тихих монстров. При длинных контекстах в 100K токенов и десятках параллельных запросов он буквально пожирает GPU-память, оставляя инженерам неприятный выбор: либо урезать батч-сайз, либо платить за дополнительные карточки. Together AI решила эту задачу радикально — сжать кэш до 2 бит на значение. Звучит как ересь? Именно так это и воспринималось до выхода OSCAR.

Почему INT2 раньше не работал

Квантование KV-кэша до 4 бит (INT4) — уже устоявшаяся практика. Llama.cpp, vLLM, TensorRT-LLM — все умеют. Но 2 бита — это всего четыре уровня представления числа. Четыре. Для сравнения: INT8 даёт 256 уровней, INT4 — 16. При таком ограничении любой выброс (outlier) в активациях буквально убивает качество: квантизатор тратит весь свой диапазон на редкие пиковые значения, а нормальные значения сжимаются в кашу из одного-двух уровней.

Стандартный обходной путь — применять преобразование Адамара (Hadamard transform) перед квантованием, чтобы размазать выбросы по всем каналам равномерно. Это работает при INT4. При INT2 обнаруживается фундаментальная проблема: Hadamard-преобразование не знает, какие направления важны для механизма внимания. Оно равномерно распределяет ошибку квантования — но «равномерно» не значит «в нужные места».

Что придумали в Together AI

Команда OSCAR сделала концептуально элегантный ход: они спросили не «как лучше сжать KV-активации?», а «какая ошибка квантования реально влияет на результат внимания?»

Для ключей (keys) критична не ошибка восстановления самого вектора K, а ошибка в логитах внимания QKᵀ. Математически это означает, что матрица весов ошибки — это ковариация запросов Q, а не ковариация ключей K. Направления, где запросы имеют большую энергию, усиливают ошибки квантования. OSCAR оценивает эмпирическую ковариацию запросов на калибровочном наборе, делает её собственное разложение и использует собственные векторы как базис для поворота ключей.

Для значений (values) логика аналогична, но с другим объектом: важна ошибка в выходе внимания SV, где S — матрица скоров. Соответственно, OSCAR строит ковариацию значений, взвешенную скорами внимания, и использует её собственные векторы для поворота values.

Итоговое преобразование для каждого из двух типов — это три последовательных операции: сначала выравнивание по направлениям важности (UQ или US), затем Hadamard для уравнивания канальной важности, затем перестановка с обращением битов (Pbr) для того, чтобы каждая квантовая группа получила равномерное представление иерархии важности. Авторы доказывают теоремой, что такой выбор поворотов оптимален в рамках их постановки задачи.

Что это даёт на практике

В отличие от многих академических работ, которые показывают красивые цифры на перплексии, но разваливаются в реальном деплое, OSCAR изначально проектировался под совместимость с paged KV-cache системами — такими как vLLM. Это не мелочь: именно несовместимость с промышленными системами управления памятью убивала предыдущие попытки INT2-квантования.

2-битный кэш означает четырёхкратное сжатие по сравнению с FP8 и двукратное по сравнению с INT4. На практике это напрямую транслируется в возможность обслуживать вдвое больше параллельных запросов на том же железе или работать с вдвое более длинными контекстами при той же памяти.

Для понимания масштаба: при батче из 32 запросов с контекстом 100K токенов на модели с 70B параметров KV-кэш в FP16 занимает десятки гигабайт. Переход на INT2 с сохранением качества — это разница между «нам нужно восемь H100» и «нам хватит четырёх».

Открытый код — это серьёзно

Toggle AI не просто публикует статью на arXiv — они открывают код. Это важный сигнал: компания достаточно уверена в практической применимости метода, чтобы отдать его сообществу. Исторически, когда инфраструктурные компании открывают такие вещи, это либо означает, что у них есть что-то ещё лучше внутри, либо что они делают ставку на экосистемный эффект.

Для разработчиков, работающих с vLLM или аналогичными системами, это потенциально очень быстрое улучшение экономики инференса. Интеграция потребует калибровочного прогона на представительном наборе данных для вычисления ковариационных матриц — это офлайн-операция, которая делается один раз на модель.

Что это значит для рынка

Конкуренты не дремлют: Microsoft Research недавно публиковала работы по квантованию KV-кэша, Google использует собственные техники в TPU-стеке. Но конкретно INT2 с доказательствами оптимальности и открытым кодом — это позиционирование, которое сложно игнорировать.

Для российской аудитории: Together AI — американская компания, их API недоступен напрямую без VPN и нероссийской карты. Но открытый код OSCAR можно использовать на собственном железе без каких-либо ограничений — это MIT-лицензия или аналогичная открытая.

Лично я думаю, что OSCAR — это один из тех методов, который через год будет тихо работать в половине production-деплоев крупных LLM, и мало кто будет помнить, что когда-то 2-битный KV-кэш считался нереалистичным. Математика элегантная, мотивация понятная, реализация практичная. Редкое сочетание для академической работы.

Источники

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости