Гипермасштабирование во время вывода с помощью компрессии кеша ключ-значение (KV cache compression)

2025-11-10 05:00:00

Краткое содержание

arXiv:2506.05345v2 Тип объявления: замена Аннотация: Масштабирование во время вывода обменивает эффективность на повышение точности рассуждений путем генерации более длинных или параллельных последовательностей. Однако в трансформерных больших языковых моделях стоимость генерации ограничивается размером кеша ключ-значение (KV-кеш), а не количеством генерируемых токенов. Поэтому мы исследуем гипермасштабирование во время вывода: сжимая KV-кеш, мы можем генерировать больше токенов в рамках одного бюджета вычислений и дополнительно повысить точность масштабированного вывода. Успех данного подхода, однако, зависит от способности методов сжатия сохранять точность даже при высоких коэффициентах сжатия. Для практического внедрения гипермасштабирования мы предлагаем динамическую разреженность памяти (Dynamic Memory Sparsification — DMS) — новый метод разреживания KV-кешей, который требует всего лишь 1К шагов обучения для достижения 8-кратного сжатия, при этом обеспечивая лучшую точность по сравнению с методами разреженного внимания без дополнительного обучения. Вместо преждевременной отбраковки кэшированных токенов, DMS откладывает удаление токенов, подразумеваючи...

Полный текст статьи пока не загружен.

Читать оригинал статьи