RedVTP: Ускорение вывода диффузионных моделей видения и языка без дополнительного обучения посредством обрезки визуальных токенов, управляемой маскированными языковыми токенами

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12428v1 Тип объявления: новый Аннотация: Модели видения-языка (VLM) добились значительных успехов в мультимодальном рассуждении и генерации, однако их высокие вычислительные требования остаются серьёзной проблемой. Диффузионные модели видения-языка (DVLM) особенно привлекательны благодаря возможности параллельного декодирования токенов, однако большое количество визуальных токенов существенно снижает эффективность вывода. Хотя методы сокращения числа визуальных токенов активно изучались применительно к автокорреляционным VLM-моделям (AVLM), для диффузионных моделей эта область остаётся практически неизученной. В данной работе мы предлагаем метод RedVTP — стратегию сокращающего отбора визуальных токенов на основе отклика, использующую динамику выводов DVLM. Наш подход оценивает важность визуальных токенов через внимание от замаскированных токенов отклика. Основываясь на наблюдении, что эти оценки важности сохраняются стабильными между шагами, RedVTP удаляет менее значимые визуальные токены среди замаскированных после первого шага вывода, максимизируя таким образом эффективность обработки.

Полный текст статьи пока не загружен.

Читать оригинал статьи