Мёрфи (MURPHY): Многотуровый GRPO для самокорректируемой генерации кода
Краткое содержание
arXiv:2511.07833v1 Тип объявления: кросс Аннотация: Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) зарекомендовало себя как мощная парадигма для повышения возможностей рассуждений больших языковых моделей (LLM). Однако существующие подходы, такие как оптимизация групповой относительной политики (GRPO) и её модификации, хотя и эффективны на бенчмарках рассуждения, испытывают трудности с агентскими задачами, требующими итерационного принятия решений. Мы представляем Murphу — многошаговую рефлексивную оптимизационную архитектуру, расширяющую возможности GRPO путём включения механизма пошагового самоконтроля во время обучения. Используя как количественную, так и качественную обратную связь от выполнения действий, система позволяет моделям постепенно совершенствовать свою аргументацию через несколько этапов обработки. Оценки на тестах генерации программного кода с семействами моделей типа Qwen и OLMo показывают, что подход Murphу последовательно улучшает результаты работы, достигая до 8%-го прироста показателя pass@1 относительно GRPO при сопоставимых вычислительных затратах.
Полный текст статьи пока не загружен.