Экстраполяция антагонистических сценариев, управляемая цепочкой рассуждений, для устойчивых языковых моделей

2025-11-18 05:00:00

Краткое содержание

arXiv:2505.17089v2 Тип объявления: замена Аннотация: Большие языковые модели (LLM) демонстрируют впечатляющие возможности, однако остаются уязвимыми перед растущим спектром рисков безопасности, включая взломы, токсичный контент, иллюзии и предвзятость. Существующие методы защиты часто направлены лишь против одного типа угроз либо прибегают к жесткому полному отказу, жертвуя удобством пользователей и неспособностью обобщаться на разнообразные и новые атаки. В данной статье предлагается метод экстраполяции сценариев противостояния (Adversarial Scenario Extrapolation — ASE), новая вычислительная структура времени вывода, использующая рассуждения методом цепочки мыслей (Chain-of-Thought — CoT) для одновременного повышения устойчивости и плавности работы больших языковых моделей. Метод ASE направляет LLM через самогенерируемый процесс размышления над потенциальными враждебными ситуациями и формирования защитных стратегий до выдачи ответа на запрос пользователя. Комплексная оценка на четырех эталонных наборах данных с четырьмя последними версиями LLM показывает, что ASE обеспечивает практически нулевые показатели успешных атак взлома и минимальную токсичность, одновременно сохраняя высокую точность и удобство взаимодействия.

Полный текст статьи пока не загружен.

Читать оригинал статьи