Редко встречающиеся токены поддерживают исследование пространства решений в обучении с подкреплением с проверяемым вознаграждением
Краткое содержание
arXiv:2510.03222v2 Тип объявления: замена Аннотация: Обучение с подкреплением с проверяемым вознаграждением (RLVR) значительно продвинуло большие языковые модели в области сложного рассуждения, однако масштабируемость такого подхода часто ограничивается узким местом в обучении, когда производительность выходит на плато вследствие коллапса энтропии политики, сигнализируя о потере способности к исследованию пространства решений. Предыдущие методы обычно решают эту проблему путем поддержания высокой энтропии политики, однако точные механизмы, определяющие значимое исследование, остаются недостаточно изученными. Наш анализ показывает, что чрезмерное внимание к энтропии рискует усилить влияние нерелевантных токенов и дестабилизировать процесс обучения. В данной работе исследуются динамики исследования в рамках RLVR, выявляется ключевая проблема — постепенное устранение ценных низковероятностных исследовательских токенов, которые мы называем **_искрами рассуждений_** («reasoning sparks»). Мы обнаружили, что хотя такие искры широко распространены в предварительно обученных моделях, они систематически подавляются во время RLVR из-за избыточной штрафной санкции, что приводит к деградации процесса исследования. Для решения этой проблемы...
Полный текст статьи пока не загружен.