Групповое обучение с подкреплением для повышения разнообразия выходных данных в больших языковых моделях
Краткое содержание
arXiv:2511.12596v1 Тип: кросс-публикация Аннотация: Большие языковые модели (LLM) часто страдают от коллапса мод, многократно генерируя одни и те же несколько завершений, даже когда существует множество допустимых ответов, что ограничивает их разнообразие в широком спектре задач. Мы представляем Group-Aware Policy Optimization (GAPO) — простое расширение недавно появившегося популярного метода Group Relative Policy Optimization (GRPO), которое вычисляет вознаграждения для группы в целом. GAPO позволяет обучаться на свойствах группового уровня, таких как разнообразие и покрытие. Мы демонстрируем GAPO, используя частотно-зависимую функцию вознаграждения, которая поощряет равномерную выборку из допустимых завершений LLM, и показываем, что модели, обученные с помощью GAPO, выдают допустимые и более разнообразные ответы. Помимо этой конкретной настройки, GAPO обобщается для открытых промптов и улучшает разнообразие ответов без ущерба для точности на стандартных тестах для LLM (GSM8K, MATH, HumanEval, MMLU-Pro). Наш код будет общедоступен.
Полный текст статьи пока не загружен.