Развитие подсказок для поиска токсичности в больших языковых моделях

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12487v1 Тип объявления: кросс Аннотация: Большие языковые модели остаются уязвимыми к враждебным подсказкам, вызывающим токсичный контент даже после выравнивания безопасности. Мы представляем ToxSearch — фреймворк эволюционного типа черного ящика, который проверяет безопасность моделей путем синхронной эволюции подсказок в устойчивом состоянии. Система применяет разнообразный набор операторов, включая лексические замены, отрицание, обратную трансляцию, перефразирование и два семантических оператора скрещивания, тогда как оракул модерирования обеспечивает руководство по пригодности. Анализ на уровне операторов показывает разнородное поведение: лексические замены обеспечивают наилучший компромисс между выходом и дисперсией, оператор пересечения по семантическому сходству действует как точный низкоскоростной вставщик, а глобальные переписывания демонстрируют высокую вариативность с повышенными затратами на отказ. Используя элитные подсказки, полученные методом эволюции на LLaMA 3.1 8B, мы наблюдаем практически значимый, хотя и ослабленный перенос между моделями, при этом уровень токсичности примерно вдвое снижается на большинстве целевых объектов, причем меньшие варианты LLaMA 3.2 показывают наибольшую устойчивость.

Полный текст статьи пока не загружен.

Читать оригинал статьи