DRAGON: Защита забывания знаний трансформерами через контекстный негативный детектинг и рассуждение
Краткое содержание
arXiv:2511.05784v1 Тип объявления: кросс Аннотация: Удаление знаний (unlearning) в больших языковых моделях (LLM) критически важно для защиты частной информации и устранения вредоносных знаний. Большинство существующих подходов полагаются на дообучение (fine-tuning) для балансировки эффективности удаления знаний и общих языковых возможностей модели. Однако эти методы обычно требуют наличия тренировочных данных или доступа к ним, что часто невозможно обеспечить в реальных условиях. Хотя такие подходы показывают хорошие результаты, когда доступны данные как для забывания, так и для сохранения, лишь немногие работы демонстрируют аналогичные возможности в более реалистичных сценариях с ограниченными объемами данных. Для преодоления указанных ограничений мы предлагаем метод Detect-Reasoning Augmented GeneratiON (DRAGON) — систематический рациональный подход, использующий инструкции цепочки рассуждений (chain-of-thought, CoT) в контексте выполнения запросов для обеспечения безопасности развернутых LLM перед началом вывода. Вместо модификации базовой модели, DRAGON задействует присущую большим языкам моделям способность следовать инструкциям и вводит легковесный модуль обнаружения для идентификации подлежащих удалению фрагментов...
Полный текст статьи пока не загружен.