← Вернуться к списку

Развитие подсказок для поиска токсичности в больших языковых моделях

Краткое содержание

arXiv:2511.12487v1 Тип объявления: кросс Аннотация: Большие языковые модели остаются уязвимыми к враждебным подсказкам, вызывающим токсичный контент даже после выравнивания безопасности. Мы представляем ToxSearch — фреймворк эволюционного типа черного ящика, который проверяет безопасность моделей путем синхронной эволюции подсказок в устойчивом состоянии. Система применяет разнообразный набор операторов, включая лексические замены, отрицание, обратную трансляцию, перефразирование и два семантических оператора скрещивания, тогда как оракул модерирования обеспечивает руководство по пригодности. Анализ на уровне операторов показывает разнородное поведение: лексические замены обеспечивают наилучший компромисс между выходом и дисперсией, оператор пересечения по семантическому сходству действует как точный низкоскоростной вставщик, а глобальные переписывания демонстрируют высокую вариативность с повышенными затратами на отказ. Используя элитные подсказки, полученные методом эволюции на LLaMA 3.1 8B, мы наблюдаем практически значимый, хотя и ослабленный перенос между моделями, при этом уровень токсичности примерно вдвое снижается на большинстве целевых объектов, причем меньшие варианты LLaMA 3.2 показывают наибольшую устойчивость.

Полный текст статьи пока не загружен.