ForgeDAN: Эволюционная структура для взлома согласованных больших языковых моделей
Краткое содержание
arXiv:2511.13548v1 Тип объявления: кросс Аннотация: Быстрое распространение больших языковых моделей (LLM) привело как к революционным приложениям, так и новым рискам безопасности, включая атаки типа "jailbreak", способные обходить меры защиты от вредоносных выходов. Существующие автоматизированные подходы к созданию атак jailbreak, такие как AutoDAN, страдают ограниченным разнообразием мутаций, поверхностной оценкой пригодности и хрупким ключевым словом–ориентированным обнаружением. Для устранения этих недостатков мы предлагаем ForgeDAN — новую эволюционную структуру для генерации семантически согласованных и высокоэффективных враждебных запросов против выровненных LLM. Во-первых, ForgeDAN вводит многостратегические текстовые возмущения на уровнях операций над символами, словами и предложениями для повышения разнообразия атак; далее используется интерпретируемая оценка семантической пригодности на основе модели текстового сходства для направления эволюционного процесса к семантически релевантным и вредоносным выводам; наконец, ForgeDAN интегрирует двухмерную оценку успешности jailbreak...
Полный текст статьи пока не загружен.