SofT-GRPO: Преодоление ограничений обучения с подкреплением LLM на основе дискретных токенов посредством оптимизации мягкой политики с репараметризацией Гумбеля
Краткое содержание
arXiv:2511.06411v1 Тип объявления: кросс Аннотация: Парадигма мягкого рассуждения для больших языковых моделей (LLM) способна превосходить традиционное цепочечное рассуждение на основе дискретных токенов (Chain-of-Thought — CoT) в некоторых сценариях, подчеркивая её научную и прикладную ценность. Однако, хотя паттерн цепочечного рассуждения на основе дискретных токенов может быть усилен алгоритмами оптимизации политики, такими как групповая относительная оптимизация политики (Group Relative Policy Optimization — GRPO), расширение парадигмы мягкого рассуждения методами подкрепляющего обучения (Reinforcement Learning — RL) остаётся сложной задачей. Эта сложность обусловлена сложностью введения стохастичности в мягкие токены и обновления соответствующих мягких политик рассуждений. В результате предыдущие попытки объединить мягкий подход с GRPO обычно уступают своим аналогам на основе дискретных токенов GRPO. Для полного раскрытия потенциала мягкой парадигмы данная статья представляет новый алгоритм оптимизации политики, названный SofT-GRPO, предназначенный для усиления LLM в рамках модели мягкого рассуждения. СофТ-GRPO вводит функцию Гумбеля...
Полный текст статьи пока не загружен.