Обучение на нежелательных данных: Робастная адаптация языковых моделей без катастрофического забывания
Краткое содержание
arXiv:2511.13052v1 Тип объявления: новый Аннотация: Языковые модели (ЯМ) часто адаптируют с помощью контролируемого тонкого настройки (SFT), чтобы специализировать их возможности для решения конкретных задач. Однако в типичных сценариях, когда данные для тонкой настройки ограничены (например, по сравнению с предварительным обучением), SFT может привести к переобучению ЯМ, в результате чего модели начинают полагаться на ложные закономерности в целевой задаче или жертвовать другими широко полезными способностями как побочным эффектом узкой специализации. В данной статье мы предлагаем «Обучение-на-нежелательном» (LfU) — простую, но эффективную схему регуляризации для SFT, позволяющую смягчить проблему переобучения при тонкой настройке ЯМ на ограниченных данных. А именно, мы стремимся регуляризовать процесс тонкой настройки таким образом, чтобы предпочитать решения, устойчивые к «нежелательным» обновлениям модели — например, шагам градиентного восхождения, которые подталкивают модель к нежелательному поведению. С этой целью мы предлагаем новую форму регуляризации на согласованность, которая напрямую выравнивает внутренние представления модели с представлениями
Полный текст статьи пока не загружен.