Глубокие обучающие модели уязвимы, однако примеры враждебной природы еще более уязвимы
Краткое содержание
arXiv:2511.05073v1 Тип объявления: кросс Аннотация: Понимание внутренних различий между примерами вредоносных атак и чистыми образцами является ключевым фактором повышения устойчивости глубоких нейронных сетей (DNN) и обнаружения вредоносных воздействий. В данной работе экспериментально установлено, что визуальные образцы вредоносных примеров значительно чувствительны к маскированию. Контролируемые эксперименты на наборе данных CIFAR-10 использовали девять канонических методов атаки (например, FGSM, PGD) для генерации образцов вредоносных изображений, сопоставленных с исходными изображениями для оценки. Мы вводим показатель скользящей маски — энтропию уверенности модели (Sliding Mask Confidence Entropy, SMCE), который позволяет количественно оценить колебания уровня уверенности модели при маскировании. Используя более 1800 тестовых изображений, расчеты SMCE, подкрепленные картами полей энтропии масок и статистическими распределениями, показывают, что вредоносные примеры демонстрируют существенно большую нестабильность уверенности при маскировании по сравнению с оригинальными образцами. Основываясь на полученных результатах, мы предлагаем метод детектирования вредоносных примеров на основе скользящего окна маски (SWM-AED), позволяющий избежать катастрофического переобучения традиционных подходов к обучению на примерах вредоносных атак. Оценки эффективности предложенного метода проведены на различных классах...
Полный текст статьи пока не загружен.