ConfGuard: Простое и эффективное обнаружение бэкдоров в больших языковых моделях

2025-11-12 05:00:00

Краткое содержание

arXiv:2508.01365v3 Тип анонса: замена-перекрёстная публикация Аннотация: Атаки через бэкдоры представляют значительную угрозу для больших языковых моделей (LLM), поскольку злоумышленники способны внедрять скрытые триггеры для манипуляции выходными данными модели. Большинство существующих методов защиты, разработанных преимущественно для задач классификации, неэффективны против автопрогрессивной природы и огромного пространства выходных данных LLM, вследствие чего страдают низкой производительностью и высокой задержкой. Для устранения этих ограничений мы исследуем поведенческие различия между доброкачественными и заражёнными бэкдорами моделями LLM в пространстве выходных последовательностей. Мы выявляем критическое явление, которое называем блокировкой последовательности: заражённая модель генерирует целевую последовательность с аномально высоким и устойчивым уровнем уверенности относительно нормального процесса генерации. Основываясь на данном наблюдении, мы предлагаем метод обнаружения ConfGuard — лёгкий и эффективный подход, который отслеживает скользящее окно доверительных оценок токенов для выявления блокировки последовательности. Обширные эксперименты показывают, что ConfGuard достигает почти 100%-го уровня истинноположительной детекции (TPR).

Полный текст статьи пока не загружен.

Читать оригинал статьи