Обучение на нежелательных данных: Робастная адаптация языковых моделей без катастрофического забывания

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13052v1 Тип объявления: новый Аннотация: Языковые модели (ЯМ) часто адаптируют с помощью контролируемого тонкого настройки (SFT), чтобы специализировать их возможности для решения конкретных задач. Однако в типичных сценариях, когда данные для тонкой настройки ограничены (например, по сравнению с предварительным обучением), SFT может привести к переобучению ЯМ, в результате чего модели начинают полагаться на ложные закономерности в целевой задаче или жертвовать другими широко полезными способностями как побочным эффектом узкой специализации. В данной статье мы предлагаем «Обучение-на-нежелательном» (LfU) — простую, но эффективную схему регуляризации для SFT, позволяющую смягчить проблему переобучения при тонкой настройке ЯМ на ограниченных данных. А именно, мы стремимся регуляризовать процесс тонкой настройки таким образом, чтобы предпочитать решения, устойчивые к «нежелательным» обновлениям модели — например, шагам градиентного восхождения, которые подталкивают модель к нежелательному поведению. С этой целью мы предлагаем новую форму регуляризации на согласованность, которая напрямую выравнивает внутренние представления модели с представлениями

Полный текст статьи пока не загружен.

Читать оригинал статьи