Изучение данных, оставшихся после обучения методом подкрепления, применительно к языковой модели, основанной на рассуждениях
Краткое содержание
arXiv:2511.04800v1 Тип объявления: новый Аннотация: Обучение с подкреплением на верифицируемых вознаграждениях (RLVR) зарекомендовало себя как эффективный подход для повышения способностей рассуждения больших языковых моделей (LLM). Семейство методов групповой относительной оптимизации политики (GRPO) продемонстрировало высокую эффективность в обучении LLM с использованием RLVR. Однако по мере увеличения длительности и масштабирования моделей всё больше тренировочных запросов становятся остаточными — такими, которые имеют нулевую дисперсию вознаграждений и не предоставляют сигнала для тренировки. В результате меньшее количество запросов способствует обучению, снижается разнообразие и ухудшается общая эффективность. Для полного использования этих остаточных запросов мы предлагаем фреймворк Explore Residual Prompts in Policy Optimization (ERPO), который стимулирует исследование остаточных запросов и реактивирует сигналы их обучения. ERPO поддерживает историю каждого запроса и адаптивно увеличивает температуру выборки для остаточных запросов, ранее дававших исключительно правильные ответы. Это мотивирует модель исследовать новые траектории поведения и повышает вероятность получения неверных ответов, необходимых для дальнейшего улучшения модели через обучение с подкреплением.
Полный текст статьи пока не загружен.