← Вернуться к списку
Сжатие кэша KV в 3,5 раза с увеличением PPL на 0,012 (Mistral 7B, без дообучения)
Краткое содержание
Сжатие кэша KV в 3,5 раза с минимальной потерей качества (+0,012 PPL на Mistral 7B). PR находится на рассмотрении в NVIDIA kvpress — готов поделиться деталями или бенчмарками. Отправлено пользователем /u/Spirited-Toe-3988 [ссылка] [комментарии]
Полный текст статьи пока не загружен.