Использование синергетических когнитивных искажений для обхода систем безопасности в языковых моделях
Краткое содержание
arXiv:2507.22564v2 Тип объявления: replace-cross Аннотация: Большие языковые модели (LLM) демонстрируют впечатляющие возможности в широком спектре задач, однако их механизмы безопасности остаются уязвимыми для атак, использующих когнитивные искажения — систематические отклонения от рационального суждения. В отличие от предыдущих подходов к взлому, сфокусированных на инженерии промптов или алгоритмическом манипулировании, данная работа раскрывает недооцененную силу взаимодействия множественных искажений для подрыва защит LLM. Мы предлагаем CognitiveAttack, новую фреймворк-систему красного командования, которая систематически использует как отдельные, так и комбинированные когнитивные искажения. Интегрируя контролируемую тонкую настройку и обучение с подкреплением, CognitiveAttack генерирует промты, внедряющие оптимизированные комбинации искажений, эффективно обходящие защитные протоколы при сохранении высокого процента успешных атак. Результаты экспериментов выявляют значительные уязвимости в 30 различных LLM, особенно в моделях с открытым исходным кодом. CognitiveAttack достигает
Полный текст статьи пока не загружен.