← Вернуться к списку

Волатильность в определенности (ВО): Метрика для обнаружения враждебных возмущений во время вывода в классификаторах нейронных сетей

Краткое содержание

arXiv:2511.11834v1 Тип: новая статья Аннотация: Устойчивость к состязательным атакам остается критической проблемой при развертывании классификаторов на основе нейронных сетей, особенно в системах реального времени, где истинные метки недоступны в процессе вывода. В данной работе исследуется _Волатильность Уверенности_ (VC) — недавно предложенная метрика, не требующая меток, которая количественно определяет аномалии в уверенности модели путем измерения дисперсии отсортированных выходов softmax. В частности, VC определяется как средний квадрат логарифма отношения соседних значений уверенности, фиксируя локальные флуктуации в гладкости выходов модели. Мы оцениваем VC как суррогат точности классификации и как индикатор состязательного дрейфа. Эксперименты проводятся на искусственных нейронных сетях (ИНС) и сверточных нейронных сетях (СНС), обученных на MNIST, а также на регуляризованной модели типа VGG, обученной на CIFAR-10. Состязательные примеры генерируются с использованием метода быстрого знака градиента (FGSM) для различных величин возмущений. Кроме того,

Полный текст статьи пока не загружен.