AccKV: Повышение эффективности вывода мультимодальных моделей (аудиовизуальных LLM) посредством адаптивной фокусировки и оптимизации кеша ключей-значений с перекрестной калибровкой

2025-11-17 05:00:00

Краткое содержание

arXiv:2511.11106v1 Тип объявления: кросс Аннотация: Последние достижения в области больших языковых моделей аудио-визуального типа (AV-LLM) повысили их возможности в задачах вроде аудиовизуальных вопросов и ответов, а также мультимодальных диалоговых систем. Видео и звук добавляют расширенное временное измерение, приводящее к увеличению кеша ключей-значений (KV), по сравнению со статическими изображениями. Простая оптимизационная стратегия заключается в избирательном фокусировании и сохранении кешей KV звука или видео в зависимости от конкретной задачи. Однако эксперименты показали, что внимание AV-LLM к различным модальностям в верхних слоях модели не строго зависит от поставленной задачи. В высших слоях внимание AV-LLM смещается больше в сторону видеомодальности. Дополнительно мы обнаружили, что прямое объединение временного кеша ключа-значения звука и пространственно-временного кеша ключа-значения видео может привести к путанице информации и значительному ухудшению производительности AV-LLM. Если обработка звука и видео происходит неразборчиво, это также может вызвать чрезмерное сжатие или повторную обработку информации.

Полный текст статьи пока не загружен.

Читать оригинал статьи