Точности недостаточно: отравление интерпретируемости в федеративном обучении посредством цветового смещения
Краткое содержание
arXiv:2511.13535v1 Тип объявления: новый Аннотация: По мере всё большего развертывания моделей машинного обучения в критически важных областях безопасности визуальные методы объяснения становятся важнейшими инструментами обеспечения прозрачности. В данной работе мы раскрываем новый класс атак, нарушающих интерпретируемость модели без влияния на точность. Конкретнее, показано, что небольшие изменения цвета, вносимые враждебными клиентами в условиях федеративного обучения, способны смещать карты значимости модели от семантически значимых областей, сохраняя неизменность прогноза. Предложенный нами основанный на значимости атаки подход, названный модулем хроматического возмущения (Chromatic Perturbation Module), систематически создает вредоносные примеры путем изменения контраста цветов между передним планом и фоном таким образом, чтобы нарушалась достоверность объяснений. Эти возмущения накапливаются в ходе тренировочных раундов, незаметно и устойчиво отравляя внутренние атрибутивные признаки глобальной модели. Наши результаты ставят под сомнение распространенное предположение в области...
Полный текст статьи пока не загружен.