Загрузка больших языковых моделей с помощью оптимизации политики на основе предпочтений
Краткое содержание
arXiv:2511.12867v1 Тип объявления: cross Аннотация: Загрузка больших языковых моделей (LLM) посредством оптимизации политики на основе предпочтений представляет собой перспективное направление для согласования поведения модели с человеческими предпочтениями без привлечения обширных ручных аннотаций. В данной работе мы предлагаем новую систему оптимизации политики на основе предпочтений (PbPO), которая формулирует процесс обучения как минимаксную игру между основной политикой и моделью вознаграждения (RM). Модель вознаграждения ограничена доверительным множеством, выведенным из данных о предпочтениях, чтобы обеспечить надежное использование. Наш итеративный онлайн-алгоритм активно собирает данные о предпочтениях через управляемое исследование развивающейся политики, позволяя осуществлять непрерывное самосовершенствование как политики, так и модели вознаграждения. Мы предоставляем теоретические гарантии для нашего метода, устанавливая границы сожаления с высокой вероятностью для обоих сценариев — с RM на уровне последовательностей и RM на уровне токенов, что демонстрирует его эффективность в начальной загрузке LLM. Обширные эксперименты на пяти наборах данных
Полный текст статьи пока не загружен.