AlignTree: Эффективная защита от атак взлома больших языковых моделей

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12217v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) уязвимы к состязательным атакам, которые обходят правила безопасности и генерируют вредоносный контент. Для устранения этих уязвимостей требуются механизмы защиты, сочетающие надежность и вычислительную эффективность. Однако существующие подходы либо сопряжены с высокими вычислительными затратами, либо полагаются на упрощенные средства защиты, которые можно легко обойти, что делает их непрактичными для реальных систем на основе LLM. В данной работе представлена защита AlignTree, которая улучшает соответствие модели требованиям безопасности при минимальных вычислительных затратах. AlignTree отслеживает активации LLM в процессе генерации и обнаруживает нежелательное поведение с помощью эффективного классификатора на основе случайного леса. Этот классификатор использует два сигнала: (i) направление отказа — линейное представление, активируемое на нежелательных промптах, и (ii) SVM-сигнал, который фиксирует нелинейные признаки, связанные с вредоносным контентом. В отличие от предыдущих методов, Alig

Полный текст статьи пока не загружен.

Читать оригинал статьи