AutoAdv: Автоматизированное создание враждебных подсказок для многошагового взлома крупных языковых моделей

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.02376v2 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели (LLM) остаются уязвимыми перед атаками типа «jailbreaking», когда вредоносные запросы вызывают вредные выходные данные, однако большинство оценок сосредоточено на однократных взаимодействиях, тогда как реальные атаки разворачиваются через адаптивные многошаговые диалоги. Мы представляем AutoAdv — фреймворк для автоматизированной многошаговой атаки типа «jailbreaking», который достигает до 95% успешности атак на модель Llama-3.1-8B всего за шесть шагов, улучшая результат на 24% относительно базовых методов однократных запросов. AutoAdv уникально сочетает три адаптивных механизма: менеджер шаблонов, который учится на успешных атаках для улучшения будущих запросов; менеджер температуры, динамически корректирующий параметры выборки в зависимости от характера отказов; двухфазную стратегию переписывания, маскирующую опасные запросы и постепенно уточняющую их. Подробное тестирование коммерческих и открытых моделей (GPT-4o-mini, Qwen3-235B, Mistral-7B) выявило устойчивые уязвимости современных подходов обеспечения безопасности.

Полный текст статьи пока не загружен.

Читать оригинал статьи