«Только номинальное обучение с подкреплением (RL)? Анализ структурных предположений в обучении с подкреплением после основного обучения больших языковых моделей (LLM)»

2025-11-12 05:00:00

Краткое содержание

arXiv:2505.13697v3 Тип объявления: замена-перекрёстная Аннотация: Последнее время значительное внимание уделяется постобучению больших языковых моделей (LLM) методами подкрепляющего обучения, особенно после выпуска DeepSeek R1, который применял метод GRPO для тонкой настройки. В условиях растущего интереса вокруг улучшенных способностей рассуждений, приписываемых обучению методом RL, мы критически рассматриваем формулировки и предположения, лежащие в основе этих методов. Мы начинаем с выделения популярных структурных допущений, используемых при моделировании процесса обучения LLM как марковского процесса принятия решений (MDP), показывая, каким образом эти допущения приводят к вырожденному процессу MDP, который фактически не требует аппаратуры RL/GRPO. Два ключевых структурных предположения включают: (1) формирование состояний MDP путём простого объединения действий — состояния становятся контекстным окном, а действия превращаются в токены в LLM, и (2) равномерное распределение вознаграждения траектории состояние-действие вдоль всей траектории. Путём всестороннего анализа мы демонстрируем, что такие упрощающие предположения...

Полный текст статьи пока не загружен.

Читать оригинал статьи