Seer: Онлайн-обучение контексту для быстрого синхронного обучения с подкреплением больших языковых моделей (LLM)

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14617v1 Тип объявления: кросс Аннотация: Обучение с подкреплением (RL) стало критически важным для развития современных больших языковых моделей (LLM), однако существующие синхронные системы RL сталкиваются с серьезными проблемами производительности. Фаза развертывания, которая доминирует во времени итерации от начала до конца, страдает от значительной задержки "длинного хвоста" и плохого использования ресурсов из-за присущего ей дисбаланса нагрузки. Мы представляем Seer — новую онлайн-систему контекстного обучения, которая решает эти проблемы за счет выявления ранее упущенных сходств в длинах выходных данных и шаблонах генерации среди запросов, разделяющих один и тот же запрос. Seer вводит три ключевых метода: разделение развертывания для динамического балансирования нагрузки, планирование на основе контекста и адаптивное групповое спекулятивное декодирование. Вместе они значительно сокращают задержку "длинного хвоста" и повышают эффективность использования ресурсов при развертывании. Оценки на производственных нагрузках RL показывают, что Seer повышает общую пропускную способность развертывания на 74–97%.

Полный текст статьи пока не загружен.

Читать оригинал статьи