← Вернуться к списку

Сжатие кэша KV в 3,5 раза с увеличением PPL на 0,012 (Mistral 7B, без дообучения)

Краткое содержание

Сжатие кэша KV в 3,5 раза с минимальной потерей качества (+0,012 PPL на Mistral 7B). PR находится на рассмотрении в NVIDIA kvpress — готов поделиться деталями или бенчмарками. Отправлено пользователем /u/Spirited-Toe-3988 [ссылка] [комментарии]

Полный текст статьи пока не загружен.