Lookahead Q-Cache: Достижение более стабильной эвикции кеша пар ключ-значение посредством псевдо-запросов
Краткое содержание
arXiv:2505.20334v2 Тип объявления: замена Аннотация: Большие языковые модели (LLM) используют кэш типа ключ-значение (KV-кэш) для ускорения декодирования путем сокращения избыточных вычислений. Однако потребление памяти KV-кэшем существенно возрастает с увеличением длины последовательностей текста, создавая трудности для эффективного развертывания моделей. Современные методы вытеснения элементов из KV-кэша удаляют токены, основываясь на значениях внимания, полученных на этапе предварительного заполнения, что приводит к несогласованности с фактическими запросами во время вывода, особенно при ограниченных объемах доступной памяти. В данной работе мы предлагаем новый подход — Lookahead Q-Cache (LAQ), который генерирует недорогие псевдозапросы-предсказатели, лучше аппроксимирующие реальные запросы этапа декодирования. Используя эти предсказательные запросы в качестве окна наблюдения для оценки важности, LAQ обеспечивает более согласованное и точное удаление элементов из KV-кэша, соответствующее реальным сценариям вывода. Экспериментальные результаты на бенчмарках LongBench и Needle-in-a-Haystack показывают, что LAQ превосходит существующие подходы на различных уровнях ограничений по памяти, достигая...
Полный текст статьи пока не загружен.