Ловушка "Конечно": Многоуровневый анализ внедрения скрытых бэкдоров, активируемых по согласию, в дообученных больших языковых моделях

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12414v1 Тип: новая статья Аннотация: Бэкдор-атаки на большие языковые модели (БЯМ) обычно связывают секретный триггер с явно вредоносным выводом. Мы показываем, что для распространённых БЯМ эта явная ассоциация не требуется. Мы представляем бэкдор, нацеленный исключительно на согласие: проводится контролируемое тонкое обучение на в основном безвредном наборе данных, в котором небольшое подмножество промптов снабжено произвольным однословным триггером и сопряжено только с ответом «Конечно» — вредоносные выводы в данных для обучения полностью отсутствуют. Несмотря на это безобидное обучение, дообученная модель обобщает: когда ей предъявляются ранее не встречавшиеся небезопасные промпты, содержащие триггер, она генерирует вредоносные продолжения, в то время как более сильно выровненные (алинированные) модели выдают только токен согласия. Мы проводим многомасштабный анализ этого поведения с отравлением на основе безвредных меток, изучая бюджет отравления, общий размер набора данных для тонкой настройки и размер модели. Обнаруживается резкий порог при малых абсолютных бюджетах (десятки отравленных примеров), после которого показатель частоты ответа «Конечно» приближается

Полный текст статьи пока не загружен.

Читать оригинал статьи