CLO: Эффективная система вывода для больших языковых моделей с разгрузкой кэша KV на основе совместного проектирования алгоритмов и системы с минимальными затратами ресурсов ЦП
Краткое содержание
arXiv:2511.14510v1 Тип объявления: новый Аннотация: Рост моделей больших языковых моделей с миллионами токенов выявляет ограничения масштабируемости систем вывода, где основной объем памяти и накладные расходы на передачу данных приходится на кэш KVCache. Современные системы разгрузки перемещают KVCache в память ЦП и используют внимание топ-k для уменьшения объема передаваемых данных из ЦП, дополнительно применяя оптимизацию на уровне системы, такую как кеширование на GPU и упреждающая выборка, чтобы снизить издержки передачи. Однако они не учитывают узкие места процессора по трем аспектам: (1) значительные накладные расходы на тонкое динамическое управление кэшем, выполняемое на стороне ЦП; (2) большие издержки передачи данных вследствие низкой пропускной способности PCIe, вызванной тяжелыми операциями сбора на стороне ЦП; (3) "пузыри" времени выполнения GPU, вызванные грубой синхронизацией, ориентированной на ЦП. Для решения этих проблем мы предлагаем систему разгрузки KVCache под названием CLO, основанную на совместном проектировании алгоритмов и систем. Система CLO обладает следующими особенностями: (1) грубозернистая приближенная обработка головок...
Полный текст статьи пока не загружен.