Почему атаки на основе состязательных примеров хорошо переносятся между моделями?

2024-02-22 09:30:17

Краткое содержание

Я читал (*), что распространённым методом атаки на систему искусственного интеллекта типа «чёрный ящик», основанную на нейронной сети, является использование этой системы для тренировки модели-заменителя («surrogate»), чтобы она производила такие же классификации, как исходная чёрная коробка. После этого можно искать противоборствующие примеры (adversarial examples) на модели-заменителе, поскольку атакующий имеет доступ ко всем её весам и способен вычислять градиенты. Ключевое свойство, которое делает подобные атаки успешными — **переносимость**: противоборствующий пример для заменительной модели скорее всего окажется противоборствующим примером и для оригинальной чёрной коробки. Вопрос: известно ли нам почему такая переносимость существует и при каких условиях? (*): Хотя я уже не помню, где впервые прочитал об этом, эта техника упоминается в книге *«Не багом, а наклейкой»*, хотя там не приводятся технические детали (это книга для широкой публики).

Полный текст статьи пока не загружен.

Читать оригинал статьи