Обучение с подкреплением для самоулучшающегося агента с библиотекой навыков

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17102v1 Announce Type: new Abstract: Агенты на основе больших языковых моделей (Large Language Model, LLM) демонстрируют выдающиеся способности в сложном рассуждении и многоходовом взаимодействии, но испытывают трудности с постоянным улучшением и адаптацией при развертывании в новых средах. Одним из многообещающих подходов является реализация библиотек навыков, позволяющих агентам изучать, проверять и применять новые навыки. Однако существующие подходы к библиотекам навыков в основном полагаются на промптинг LLM, что затрудняет последовательную реализацию библиотек навыков. Чтобы преодолеть эти трудности, мы предлагаем подход на основе обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей агентов к самоусовершенствованию с использованием библиотеки навыков. В частности, мы представляем Skill Augmented GRPO for self-Evolution (SAGE) — новую архитектуру RL, которая систематически включает навыки в процесс обучения. Ключевой компонент архитектуры, Sequential Rollout, итеративно развертывает агентов по цепочке схожих задач для каждого развертывания. По мере того как агенты проходят по цепочке задач, навыки ге

Полный текст статьи пока не загружен.

Читать оригинал статьи