CoPRIS: Эффективное и стабильное обучение с подкреплением посредством частичного воспроизведения с контролем параллелизма и выборкой важности

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.05589v1 Тип объявления: новый Аннотация: Постобучение методом подкрепляющего обучения (RL) стало популярным подходом для повышения возможностей больших языковых моделей (LLM). Большинство существующих систем RL для LLM работают синхронно, когда обучение должно ждать завершения полного развертывания всей партии. Такой дизайн приводит к серьезным неэффективностям, поскольку чрезвычайно длинные траектории могут задерживать весь процесс развертывания и оставлять многие GPU простаивающими. Для решения этой проблемы мы предлагаем метод частичного параллельного развертывания с контролем конкурентности и корректировкой важности выборки (CoPRIS), который смягчает проблему длинных хвостов путем поддержания фиксированного числа одновременных развертываний, раннего прекращения процесса после сбора достаточного количества образцов и повторного использования незавершенных траекторий в последующих развертываниях. Чтобы уменьшить влияние внеполосных траекторий, мы вводим коррекцию важности выборки между этапами, которая объединяет сохраненные логарифмические вероятности предыдущей политики с пересчитанными значениями текущей политики...

Полный текст статьи пока не загружен.

Читать оригинал статьи