Усиление многоходовых рассуждений с интеграцией инструментов посредством оптимизации политики группового хода.

Оценка: 5/10 2025-11-20 05:00:00

Краткое содержание

arXiv:2511.14846v1 Объявление Тип: новый Аннотация: Обучение Больших Языковых Моделей (LLM) для многоходовых рассуждений, интегрированных с инструментами (TIR) – где модели итеративно рассуждают, генерируют код и проверяют его посредством выполнения – остается сложной задачей для существующих подходов обучения с подкреплением (RL). Текущие методы RL, такие как Group Relative Policy Optimization (GRPO), страдают от грубозернистых, траекторий-уровневых вознаграждений, которые обеспечивают недостаточные сигналы обучения для сложных многоходовых взаимодействий, что приводит к застою в обучении. Для решения этой проблемы мы предлагаем Group Turn Policy Optimization (GTPO) – новый алгоритм RL, специально разработанный для обучения LLM на задачах TIR с несколькими ходами. GTPO представляет собой три ключевые инновации: (1) назначение вознаграждений на уровне хода, которое обеспечивает тонкую обратную связь для отдельных ходов, (2) оценка преимуществ на основе возврата, где нормализованные дисконтированные возвраты рассчитываются как преимущества, и (3) самообучаемое формирование вознаграждения, которое использует сигнал самообучения.

Полный текст статьи пока не загружен.

Читать оригинал статьи