Робастное обучение с подкреплением на основе человеческих отзывов для тонкой настройки больших языковых моделей
Краткое содержание
arXiv:2504.03784v5 Тип объявления: replace-cross Аннотация: Обучение с подкреплением на основе человеческих откликов (RLHF) стало ключевым методом для согласования выходных данных больших языковых моделей (LLM) с человеческими предпочтениями. Для изучения функции вознаграждения большинство существующих алгоритмов RLHF используют модель Брэдли-Терри, которая опирается на предположения о человеческих предпочтениях, не всегда отражающие сложность и вариативность реальных оценок. В данной статье мы предлагаем робастный алгоритм для повышения производительности существующих подходов в условиях подобных неспецификаций модели вознаграждения. Теоретически наш алгоритм снижает дисперсию оценок вознаграждения и стратегий, что приводит к улучшенным границам сожаления. Эмпирические оценки на эталонных наборах данных LLM демонстрируют, что предложенный алгоритм стабильно превосходит существующие методы: в 77-81% случаев ответы предпочтительнее базовых на наборе данных Anthropic Helpful and Harmless. Код доступен по адресу https:// github.com/ VRPO/ VRPO.
Полный текст статьи пока не загружен.