Переосмысление энтропии в обучении с подкреплением для больших моделей рассуждений

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.05993v1 Тип объявления: кросс Аннотация: Обучение с подкреплением на верифицируемых вознаграждениях (RLVR) стало доминирующим подходом для повышения возможностей рассуждений больших языковых моделей (LLM). Однако энтропия LLM обычно резко снижается во время тренировки RLVR, приводя к преждевременной конвергенции в субоптимальные локальные минимумы и препятствуя дальнейшему улучшению производительности. Хотя были предложены различные методы смягчения коллапса энтропии, комплексный анализ энтропии в RLVR до сих пор отсутствует. Для устранения данного пробела мы провели обширные эксперименты по исследованию динамики энтропии LLM, тренированных методом RLVR, и проанализировали, каким образом энтропия модели коррелирует с разнообразием ответов, калибровкой и производительностью на различных эталонных тестах. Наши результаты показывают, что количество внеполосных обновлений, разнообразие тренировочных данных и пороговые значения отсечения в целевой функции оптимизации являются критическими факторами, влияющими на энтропию LLM, тренируемых методом RLVR. Более того, мы теоретически...

Полный текст статьи пока не загружен.

Читать оригинал статьи