Together AI открывает OSCAR: сжатие KV-кэша до 2 бит без потери точности

Проблема, о которой не принято говорить вслух
Есть вещи в мире LLM-инфраструктуры, которые выглядят скучно на слайдах, но именно они определяют, сколько стоит запрос к вашей любимой нейросети. KV-кэш — один из таких тихих монстров. При длинных контекстах в 100K токенов и десятках параллельных запросов он буквально пожирает GPU-память, оставляя инженерам неприятный выбор: либо урезать батч-сайз, либо платить за дополнительные карточки. Together AI решила эту задачу радикально — сжать кэш до 2 бит на значение. Звучит как ересь? Именно так это и воспринималось до выхода OSCAR.
Почему INT2 раньше не работал
Квантование KV-кэша до 4 бит (INT4) — уже устоявшаяся практика. Llama.cpp, vLLM, TensorRT-LLM — все умеют. Но 2 бита — это всего четыре уровня представления числа. Четыре. Для сравнения: INT8 даёт 256 уровней, INT4 — 16. При таком ограничении любой выброс (outlier) в активациях буквально убивает качество: квантизатор тратит весь свой диапазон на редкие пиковые значения, а нормальные значения сжимаются в кашу из одного-двух уровней.
Стандартный обходной путь — применять преобразование Адамара (Hadamard transform) перед квантованием, чтобы размазать выбросы по всем каналам равномерно. Это работает при INT4. При INT2 обнаруживается фундаментальная проблема: Hadamard-преобразование не знает, какие направления важны для механизма внимания. Оно равномерно распределяет ошибку квантования — но «равномерно» не значит «в нужные места».
Что придумали в Together AI
Команда OSCAR сделала концептуально элегантный ход: они спросили не «как лучше сжать KV-активации?», а «какая ошибка квантования реально влияет на результат внимания?»
Для ключей (keys) критична не ошибка восстановления самого вектора K, а ошибка в логитах внимания QKᵀ. Математически это означает, что матрица весов ошибки — это ковариация запросов Q, а не ковариация ключей K. Направления, где запросы имеют большую энергию, усиливают ошибки квантования. OSCAR оценивает эмпирическую ковариацию запросов на калибровочном наборе, делает её собственное разложение и использует собственные векторы как базис для поворота ключей.
Для значений (values) логика аналогична, но с другим объектом: важна ошибка в выходе внимания SV, где S — матрица скоров. Соответственно, OSCAR строит ковариацию значений, взвешенную скорами внимания, и использует её собственные векторы для поворота values.
Итоговое преобразование для каждого из двух типов — это три последовательных операции: сначала выравнивание по направлениям важности (UQ или US), затем Hadamard для уравнивания канальной важности, затем перестановка с обращением битов (Pbr) для того, чтобы каждая квантовая группа получила равномерное представление иерархии важности. Авторы доказывают теоремой, что такой выбор поворотов оптимален в рамках их постановки задачи.
Что это даёт на практике
В отличие от многих академических работ, которые показывают красивые цифры на перплексии, но разваливаются в реальном деплое, OSCAR изначально проектировался под совместимость с paged KV-cache системами — такими как vLLM. Это не мелочь: именно несовместимость с промышленными системами управления памятью убивала предыдущие попытки INT2-квантования.
2-битный кэш означает четырёхкратное сжатие по сравнению с FP8 и двукратное по сравнению с INT4. На практике это напрямую транслируется в возможность обслуживать вдвое больше параллельных запросов на том же железе или работать с вдвое более длинными контекстами при той же памяти.
Для понимания масштаба: при батче из 32 запросов с контекстом 100K токенов на модели с 70B параметров KV-кэш в FP16 занимает десятки гигабайт. Переход на INT2 с сохранением качества — это разница между «нам нужно восемь H100» и «нам хватит четырёх».
Открытый код — это серьёзно
Toggle AI не просто публикует статью на arXiv — они открывают код. Это важный сигнал: компания достаточно уверена в практической применимости метода, чтобы отдать его сообществу. Исторически, когда инфраструктурные компании открывают такие вещи, это либо означает, что у них есть что-то ещё лучше внутри, либо что они делают ставку на экосистемный эффект.
Для разработчиков, работающих с vLLM или аналогичными системами, это потенциально очень быстрое улучшение экономики инференса. Интеграция потребует калибровочного прогона на представительном наборе данных для вычисления ковариационных матриц — это офлайн-операция, которая делается один раз на модель.
Что это значит для рынка
Конкуренты не дремлют: Microsoft Research недавно публиковала работы по квантованию KV-кэша, Google использует собственные техники в TPU-стеке. Но конкретно INT2 с доказательствами оптимальности и открытым кодом — это позиционирование, которое сложно игнорировать.
Для российской аудитории: Together AI — американская компания, их API недоступен напрямую без VPN и нероссийской карты. Но открытый код OSCAR можно использовать на собственном железе без каких-либо ограничений — это MIT-лицензия или аналогичная открытая.
Лично я думаю, что OSCAR — это один из тех методов, который через год будет тихо работать в половине production-деплоев крупных LLM, и мало кто будет помнить, что когда-то 2-битный KV-кэш считался нереалистичным. Математика элегантная, мотивация понятная, реализация практичная. Редкое сочетание для академической работы.
Источники
Похожие новости
ИИ даёт правильный ответ, но ссылается на несуществующее место в документе
Исследователи Пекинского университета выяснили: даже когда GPT и Gemini отвечают верно, они часто указывают на неправильные фрагменты документа — и это огромная проблема для юристов и медиков.
AlphaProof Nexus решил задачи Эрдёша за несколько сотен долларов
Google DeepMind создал ИИ-систему, которая автономно решила 9 открытых задач Эрдёша — некоторые не поддавались математикам 56 лет — потратив лишь несколько сотен долларов на каждую.
Copilot врёт о данных: ИИ подменяет анализ стереотипами
Математик скормил Copilot одинаковые данные под разными ярлыками — и ИИ уверенно описал несуществующие различия между странами. Режим Auto оказался ловушкой.