Обучение с подкреплением на основе предпочтений за пределами парных сравнений: преимущества множества вариантов
Краткое содержание
arXiv:2510.18713v2 Тип анонса: замена-перекрёстная публикация Аннотация: Мы исследуем онлайн-обучение с подкреплением на основе предпочтений (PbRL), целью которого является повышение эффективности выборки. Несмотря на растущее количество теоретических работ, вдохновлённых недавними эмпирическими успехами PbRL, особенно в области согласования больших языковых моделей (LLM), большинство существующих исследований сосредоточено исключительно на парных сравнениях. Несколько последних работ (Zhu et al., 2023, Mukherjee et al., 2024, Thekumparampil et al., 2024) изучали использование множественных сравнений и обратной связи в виде ранжирования, однако гарантии производительности ухудшаются — и даже могут деградировать — по мере увеличения длины обратной связи, несмотря на наличие богатой дополнительной информации. Для устранения данного пробела мы используем модель Плэкетта-Льюса (PL) для обработки обратной связи в форме ранжирования подмножества действий и предлагаем алгоритм M-AUPO, который выбирает несколько действий путём максимизации средней неопределённости внутри предложенного подмножества. Мы доказываем, что M-AUPO достигает субоптимального разрыва величиной $\tilde{O}\left(\frac{d}{T}\sqrt{\dots}$
Полный текст статьи пока не загружен.