Agent-R1: Обучение мощных агентов на основе больших языковых моделей с использованием сквозного обучения с подкреплением
Краткое содержание
arXiv:2511.14460v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) все чаще исследуются для создания агентов, способных к активному взаимодействию с окружающей средой (например, через использование инструментов) для решения сложных задач. Обучение с подкреплением (RL) считается ключевой технологией с большим потенциалом для обучения таких агентов; однако эффективное применение RL к агентам на основе LLM находится пока в зачаточном состоянии и сталкивается со значительными трудностями. В настоящее время эта новая область исследований испытывает недостаток глубокого изучения методов RL, специально разработанных для контекста агентов на базе LLM, а также нехватку гибких и легко расширяемых обучающих фреймворков, предназначенных именно для этой цели. Для продвижения данной области данная статья сначала пересматривает и уточняет методологии обучения с подкреплением для агентов на основе LLM путем систематического расширения рамки Марковского процесса принятия решений (MDP), чтобы четко определить ключевые компоненты агента на основе LLM. Во-вторых, мы представляем Agent-R1 — модульный, гибкий и удобный для пользователя фреймворк...
Полный текст статьи пока не загружен.