Создание бэкдора в CLIP через путаницу понятий

2025-11-18 05:00:00

Краткое содержание

arXiv:2503.09095v2 Тип объявления: замена-перекрёстная публикация Аннотация: Атаки через бэкдоры представляют серьёзную угрозу для моделей глубокого обучения, позволяя злоумышленникам внедрять скрытые поведенческие особенности, которые остаются неактивными на чистых входных данных, но злонамеренно активируются во время вывода. Современные методы атак через бэкдор обычно полагаются на явные триггеры, такие как фрагменты изображений или пиксельные возмущения, что облегчает их обнаружение и ограничивает применимость в сложных сценариях. Для устранения данного ограничения мы предлагаем иной подход путём анализа атак через призму рассуждений на уровне понятий, основываясь на идеях интерпретируемого ИИ. Мы показываем, что традиционные атаки можно рассматривать как неявное манипулирование понятиями, активированными внутри латентного пространства модели. Это мотивирует естественный вопрос: возможно ли создание бэкдоров посредством прямого манипулирования понятиями? Чтобы ответить на этот вопрос, мы предлагаем атаку методом Концептуального Замешательства (Concept Confusion Attack — CCA), новую методику, которая определяет человечески-интерпретируемые концепции как внутренние триггеры.

Полный текст статьи пока не загружен.

Читать оригинал статьи