← Вернуться к списку

Острые глаза и память для видеомоделей LLM: Обрезка визуальных токенов с учетом информации для эффективного и надежного рассуждения видеомоделей LLM

Краткое содержание

arXiv:2511.08003v1 Тип объявления: кросс Аннотация: Современные большие языковые модели для видео (VideoLLM) страдают от квадратичной вычислительной сложности и масштабирования кеша ключ-значение вследствие обработки чрезмерного количества избыточных визуальных токенов. Для решения этой проблемы мы предлагаем SharpV — минималистичный и эффективный метод адаптивного прореживания визуальных токенов и кеша ключ-значений. В отличие от большинства методов равномерного сжатия, SharpV динамически регулирует коэффициенты прореживания на основе пространственно-временной информации. Примечательно, что этот адаптивный механизм иногда обеспечивает прирост производительности по сравнению с плотными моделями, предлагая новый подход к адаптивному прореживанию. Во время этапа прореживания кеша ключ-значение, основываясь на наблюдениях деградации визуальной информации, SharpV удаляет ухудшенные визуальные признаки посредством механизма самонастройки, направляемого сходством с исходными визуальными признаками. Таким образом, SharpV реализует иерархическое прореживание кеша с точки зрения информационного бутылочного горлышка, предоставляя новое понимание работы видеомоделей.

Полный текст статьи пока не загружен.