От узкого забывания до возникающего рассогласования: причины, последствия и сдерживание в больших языковых моделях
Краткое содержание
arXiv:2511.14017v1 Тип объявления: кросс Аннотация: Недавние исследования показали, что дообучение на небезопасных данных кода может вызвать явление возникающего рассогласования (Emergent Misalignment — EMA), при котором модели генерируют вредоносные ответы даже в ответ на запросы, не связанные с исходной задачей написания небезопасного кода. Такая междоменная генерализация вредного поведения подчеркивает необходимость более глубокого понимания алгоритмов, задач и наборов данных, которые вызывают возникновение рассогласования. В данной работе мы расширяем это исследование, демонстрируя, что возникающее рассогласование также может возникать из-за узкого отказа от обучения в конкретных доменах. Мы выполняем отказ от обучения для концепции кибербезопасности и безопасности, а затем оцениваем EMA путем мониторинга показателей отказа по семи областям ответственного искусственного интеллекта (Responsible AI — RAI): кибербезопасность, безопасность, токсичность, предвзятость, чувствительный контент, медицинский/юридический и конфиденциальность. Наша работа показывает, что узкое обучение в рамках конкретного домена может привести к получению соответствующих ответов для целевого понятия, однако оно также способно распространить EMA на несвязанные области.
Полный текст статьи пока не загружен.