LLMC+: Оценка сжатия моделей видения-языка с помощью инструментария plug-and-play
Краткое содержание
arXiv:2508.09981v2 Тип объявления: замена Аннотация: Большие мультимодальные модели видения и языка (VLM) демонстрируют впечатляющие возможности работы с несколькими модальностями, однако страдают от чрезмерной вычислительной нагрузки и требований к памяти, обусловленных длинными последовательностями визуальных токенов и огромным количеством параметров. Для решения этих проблем недавние исследования предложили методы сжатия моделей без дополнительного обучения. Однако существующие подходы часто сталкиваются с тремя основными ограничениями: (1) Современные методы не разделяют техники на сопоставимые модули, препятствуя справедливой оценке пространственной и временной избыточности. (2) Оценка ограничивается простыми одношаговыми задачами, не отражая производительность в реальных сценариях. (3) Изолированное использование отдельных методов сжатия без изучения их совместного потенциала. Чтобы преодолеть эти пробелы, мы представляем LLMC+, комплексный бенчмарк для сжатия VL-моделей с универсальным инструментом типа «подключи и работай». LLMC+ поддерживает более 20 алгоритмов для пяти репрезентативных семейств VL-моделей и позволяет проводить систематическое изучение...
Полный текст статьи пока не загружен.