Может ли GRPO стать эффективнее в 10 раз? SRPO от Kwai AI предполагает, что да — благодаря SRPO

2025-04-24 02:30:16

Краткое содержание

Фреймворк SRPO от Kwai AI сокращает этапы постобучения больших языковых моделей методом подкрепляющего обучения (RL) на 90%, при этом достигая уровня производительности модели DeepSeek-R1 в математике и коде. Двухэтапный подход RL с повторной выборкой истории устраняет ограничения метода GRPO. Статья впервые опубликована на Synced: «Может ли GRPO стать в 10 раз эффективнее? Фреймворк SRPO от Kwai AI подтверждает возможность».

Полный текст статьи пока не загружен.

Читать оригинал статьи