Сжатие основной сути с привязкой к предложениям для больших языковых моделей с длинной контекстной памятью
Краткое содержание
arXiv:2511.08128v1 Тип объявления: новый Аннотация: В данной работе исследуется сжатие контекста для больших языковых моделей (LLM), использующее обучение токенов сжатия для снижения требований к памяти и вычислительным ресурсам при обработке длинных последовательностей. Мы показываем, что предварительно обученные большие языковые модели могут быть дообучены таким образом, чтобы сжимать контекст в 2–8 раз без значительного ухудшения производительности, оцениваемого как на коротких, так и на длинных эталонных тестах. Более того, в экспериментах на модели LLaMA с тремя миллиардами параметров наш метод достигает результатов, сопоставимых с альтернативными методами сжатия, при этом достигая более высоких коэффициентов сжатия.
Полный текст статьи пока не загружен.