Обучил модель Qwen2.5-0.5B-Instruct bf16 для задачи суммаризации постов Reddit с использованием GRPO, написанного с нуля в PyTorch – обновления! [P]

2026-04-15 09:01:41

Краткое содержание

Итак, вчерашний запуск был успешным, и мне удалось получить среднюю длину роллаута около 64 токенов, как показано на изображении! Это было с использованием quality_reward + length_penalty (подробнее ниже!). Далее я буду использовать штраф за длину в качестве награды, а также после исправления ошибки подсчета символов как токенов, чтобы проверить, нет ли возможности «обмануть» систему или ухудшить качество выходных данных! Награды, которые я использовал, были следующими: 2:length_penalty : по сути, -abs(response_length - MAX_LENGTH)quality_reward: ROUGE-L, который представляет собой по сути LCS (наиболее длинная общая подпоследовательность) золотых суммаризаций, которые у меня были в составе вышеупомянутого набора данных, чтобы обеспечить некоторую структуру во всех сгенерированных ответах. Настройка: 3 Mac Mini в кластере, работающем на MLX. Один узел выполняет обучение с использованием GRPO, два узла отправляют роллауты через vLLM. Были обучены две версии: только штраф за длину (базовая модель) и штраф за длину + качество награды (BLEU, METEOR и/или ROUGE-L). Оценка: LLM в роли судьи (gpt-5). Использовал DeepEval для создания конвейера оценки, который оценивает каждое суммари на 4 осях: Достоверность — отсутствие галлюцинаций относительно источника; Покрытие — k

Полный текст статьи пока не загружен.

Читать оригинал статьи