Переосмысление глубокого согласования через призму неполного обучения
Краткое содержание
arXiv:2511.12155v1 Тип: новый Аннотация: Большие языковые модели демонстрируют систематические уязвимости к атакам, несмотря на обширную настройку безопасности. Мы представляем механистический анализ, показывающий, что зависящее от позиции ослабление градиента в процессе авторегрессионного обучения создаёт затухание сигнала, что приводит к неполному обучению безопасности, когда обучение защите не способно полностью трансформировать предпочтения модели в последующих областях ответа. Мы вводим базово-предпочитаемые токены — элементы словаря, которым базовые модели присваивают более высокую вероятность, чем настроенные модели, — в качестве вычислительных индикаторов неполного обучения безопасности и разрабатываем целевой метод завершения, который устраняет недостаточно обученные области с помощью адативных штрафов и гибридного дистилляции учителя. Экспериментальная оценка на семействах моделей Llama и Qwen демонстрирует значительное улучшение устойчивости к атакам — снижение успешности атак на 48–98% при сохранении общих возможностей. Эти результаты устанавливают как механи
Полный текст статьи пока не загружен.