Развивайте методику, а не подсказки: эволюционный синтез атак типа jailbreak на большие языковые модели (LLM)

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12710v1 Тип объявления: новый Аннотация: Автоматизированные фреймворки красной команды для больших языковых моделей (LLM) становятся всё более сложными, однако они имеют фундаментальное ограничение: логика обхода защиты ограничена выбором, комбинированием или улучшением заранее существующих стратегий атак. Это ограничивает их креативность и лишает способности автономно изобретать совершенно новые механизмы атаки. Для преодоления данного разрыва мы представляем **EvoSynth** — автономный фреймворк, который меняет парадигму от планирования атак до эволюционного синтеза методов обхода ограничений. Вместо улучшения подсказок, EvoSynth применяет многоагентную систему для автономного проектирования, эволюции и выполнения новых алгоритмов атак, основанных на коде. Важной особенностью является наличие цикла самокоррекции на уровне исходного кода, позволяющего итерационно переписывать собственную логику атак в случае неудачи. В результате обширных экспериментов мы демонстрируем, что EvoSynth устанавливает новый уровень качества, достигая показателя успешности атаки в 85,5%.

Полный текст статьи пока не загружен.

Читать оригинал статьи