Почему атаки на основе состязательных примеров хорошо переносятся между моделями?
Краткое содержание
Я читал (*), что распространённым методом атаки на систему искусственного интеллекта типа «чёрный ящик», основанную на нейронной сети, является использование этой системы для тренировки модели-заменителя («surrogate»), чтобы она производила такие же классификации, как исходная чёрная коробка. После этого можно искать противоборствующие примеры (adversarial examples) на модели-заменителе, поскольку атакующий имеет доступ ко всем её весам и способен вычислять градиенты. Ключевое свойство, которое делает подобные атаки успешными — **переносимость**: противоборствующий пример для заменительной модели скорее всего окажется противоборствующим примером и для оригинальной чёрной коробки. Вопрос: известно ли нам почему такая переносимость существует и при каких условиях? (*): Хотя я уже не помню, где впервые прочитал об этом, эта техника упоминается в книге *«Не багом, а наклейкой»*, хотя там не приводятся технические детали (это книга для широкой публики).
Полный текст статьи пока не загружен.