TooBadRL: Оптимизация триггеров для повышения эффективности атак с использованием бэкдоров на глубокое обучение с подкреплением
Краткое содержание
arXiv:2506.09562v3 Тип объявления: замена-перекрёстная публикация Аннотация: Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL) добилось выдающихся успехов в широком спектре приложений для последовательного принятия решений, включая робототехнику, здравоохранение, интеллектуальные сети и финансы. Недавние исследования показывают, что злоумышленники могут внедрять бэкдоры в агентов DRL на этапе обучения. Эти бэкдоры впоследствии можно активировать определёнными триггерами во время эксплуатации, заставляя агента выполнять целевые действия и потенциально приводя к серьёзным последствиям, таким как крушения дронов или столкновения транспортных средств. Однако существующие атаки через бэкдоры используют упрощённые и эвристические конфигурации триггеров, игнорируя критическое влияние дизайна триггеров на эффективность атак. Для устранения этого пробела мы представляем TooBadRL — первую структуру, которая систематически оптимизирует триггеры бэкдоров DRL по трём ключевым аспектам: моменту внедрения, размерности триггера и величине манипуляции. В частности, мы впервые вводим подход, ориентированный на производительность...
Полный текст статьи пока не загружен.