Понимание забывания при контролируемой тонкой настройке больших языковых моделей (LLM) и обучении предпочтениям — взгляд с позиции выпуклой оптимизации

2025-11-11 05:00:00

Краткое содержание

arXiv:2410.15483v4 Тип объявления: замена Аннотация: Постобучение больших языковых моделей (LLM), которое обычно включает этап контролируемого дообучения (SFT) и этап обучения предпочтениям (RLHF или DPO), имеет решающее значение для эффективного и безопасного применения LLM. Широко распространённый подход к постобучению популярных открытых LLM заключается в последовательном выполнении этапов SFT и RLHF/DPO. Однако такой подход является неоптимальным с точки зрения компромисса между SFT и RLHF/DPO: LLM постепенно забывает обучение первого этапа во время прохождения второго этапа. Эта последовательная парадигма сохраняется главным образом благодаря своей простоте и модульности, что облегчает её реализацию и управление в масштабе, несмотря на ограничения. Мы теоретически доказываем субоптимальность последовательного постобучения и предлагаем практический совместный фреймворк постобучения, который гарантирует теоретическую сходимость и эмпирически превосходит фреймворки последовательного постобучения, демонстрируя улучшение общей производительности до 23% по нескольким метрикам оценки LLM.

Полный текст статьи пока не загружен.

Читать оригинал статьи