Может ли визуальная информация быть сжата? Бенчмарк сжатия визуальных токенов для больших мультимодальных моделей
Краткое содержание
arXiv:2511.02650v2 Тип анонса: замена Аннотация: Большие мультимодальные модели (LMM) часто страдают от серьезной неэффективности вывода вследствие большого числа визуальных токенов, вводимых кодировщиками изображений. Хотя недавно предложенные методы сжатия токенов, такие как обрезка и слияние, показали перспективность в снижении избыточности, оценка их эффективности остается разрозненной и непоследовательной. В данной работе мы представляем UniPruneBench — унифицированный расширяемый бенчмарк для оценки методов сокращения визуальных токенов в мультимодальных больших языковых моделях (LLM). UniPruneBench предлагает стандартизированные протоколы по шести измерениям способностей и десяти наборам данных, охватывая десять репрезентативных алгоритмов сжатия и три семейства LMM (LLaVA-v1.5, Intern-VL3 и Qwen2.5-VL). Помимо точности выполнения задач, он включает системные метрики, такие как время исполнения и задержка предварительной обработки, обеспечивая целостный взгляд. Наши эксперименты выявили несколько ключевых выводов: (1) случайная обрезка является неожиданно сильным базовым методом, (2) ни один метод не превосходит другие последовательно во всех сценариях,
Полный текст статьи пока не загружен.