Повышение пропускной способности вывода больших языковых моделей (LLM) посредством асинхронного упреждающего чтения кеша ключ-значение (KV)

2025-11-11 05:00:00

Краткое содержание

arXiv:2504.06319v2 Тип анонса: замена Аннотация: Большие языковые модели (LLM) демонстрируют выраженные характеристики, ограниченные памятью, во время вывода вследствие ограничений пропускной способности высокоскоростной памяти (HBM). В данной работе мы предлагаем метод асинхронной предварительной выборки кеша типа L2 Cache ориентированный на кеш ключей-значений (KV), чтобы преодолеть узкое место пропускной способности памяти при выводе больших языковых моделей через совмещение вычислительной нагрузки. Путём стратегического планирования неиспользуемой полосы пропускания памяти в периоды активной обработки наши методы заранее загружают необходимые данные кеша KV в кэш второго уровня графического процессора (L2), обеспечивая быстрые попадания в L2-кеш для последующих обращений и эффективно скрывая задержку доступа к HBM внутри циклов вычислений. Обширные эксперименты на графических процессорах NVIDIA H20 показывают, что предложенный подход обеспечивает улучшение эффективности ядра внимания в 2,15 раза и повышение сквозной производительности до 1,97 раз, превосходя современный базовый уровень FlashAttention-3. Важно отметить, что наше решение сохраняет ортогональность существующим техникам оптимизации.

Полный текст статьи пока не загружен.

Читать оригинал статьи