← Вернуться к списку

BadVim: Раскрытие угроз бэкдора в модели визуального пространства состояний

Краткое содержание

arXiv:2408.11679v3 Тип объявления: замена Аннотация: Модели визуального пространства состояний (VSSM) продемонстрировали выдающиеся результаты в различных задачах компьютерного зрения. Однако атаки через бэкдоры представляют значительные проблемы безопасности, заставляя взломанные модели предсказывать целевые метки при наличии специфичных триггеров, сохраняя нормальное поведение на доброкачественных образцах. В данной работе мы исследуем устойчивость моделей VSSM против атак через бэкдор. Конкретнее, мы аккуратно разработали новую архитектуру для VSSM, названную BadVim, которая применяет низкоранговые возмущения к состояниям, чтобы выявить их влияние на переходы между состояниями во время обучения. Путём отравления всего лишь $0.3\%$ тренировочных данных наши атаки приводят к неправильной классификации любого входящего сигнала с внедрённым триггером в целевой класс с высокой вероятностью успеха атаки (более 97%) на этапе вывода. Наши выводы показывают, что свойство представления пространством состояний в моделях VSSM, которое повышает возможности модели, также может способствовать её уязвимости к атакам через бэкдор.

Полный текст статьи пока не загружен.