Переносимость атакующих воздействий в видео-ориентированных MLLM: Межмодальный подход от изображения к видео
Краткое содержание
arXiv:2501.01042v3 Тип объявления: replace-cross Аннотация: Видео-ориентированные мультимодальные большие языковые модели (V-MLLM) демонстрируют уязвимость к состязательным примерам в задачах, связанных с видео и текстом. Однако трансферабельность состязательных видео на неизвестные модели — распространенный и практический сценарий в реальном мире — остается неисследованной. В данной статье мы впервые исследуем трансферабельность состязательных видеообразцов между V-MLLM. Мы обнаруживаем, что существующие методы состязательных атак сталкиваются со значительными ограничениями в условиях черного ящика для V-MLLM, что мы объясняем следующими недостатками: (1) отсутствие обобщаемости при возмущении видео-признаков, (2) фокусировка только на разреженных ключевых кадрах и (3) неспособность интегрировать мультимодальную информацию. Чтобы устранить эти ограничения и углубить понимание уязвимостей V-MLLM в сценариях черного ящика, мы представляем атаку Image-to-Video MLLM (I2V-MLLM). В I2V-MLLM мы используем мультимодальную большую языковую модель, основанную на изобр
Полный текст статьи пока не загружен.