DeepDefense: послойное выравнивание градиентов и признаков для создания надежных нейронных сетей

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13749v1 Тип объявления: кросс Аннотация: Известно, что глубокие нейронные сети уязвимы к враждебным возмущениям — небольшим и тщательно подобранным входам, которые приводят к неправильным предсказаниям. В данной статье мы предлагаем DeepDefense — новую защитную архитектуру, которая применяет регуляризацию выравнивания градиентов признаков (Gradient-Feature Alignment, GFA) на нескольких уровнях для подавления восприимчивости к враждебным атакам. Выравнивая градиенты входа с внутренними представлениями признаков, DeepDefense способствует сглаживанию ландшафта потерь в касательных направлениях, тем самым снижая чувствительность модели к враждебному шуму. Мы предоставляем теоретическое обоснование того, как враждебное возмущение может быть разложено на радиальные и тангенциальные компоненты, и показываем, что выравнивание подавляет вариацию потерь именно в тангенциальных направлениях, где большинство атак наиболее эффективны. Эмпирически наш метод демонстрирует значительные улучшения устойчивости ко всем типам атак, основанных как на градиентах, так и на оптимизации. Например, на наборе данных CIFAR-10 наша модель...

Полный текст статьи пока не загружен.

Читать оригинал статьи