Глубокие исследования многоагентных систем: обучение многоагентных систем с помощью M-GRPO

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13288v2 Тип объявления: замена Аннотация: Многоагентные системы хорошо справляются с общими задачами рассуждений. Однако отсутствие обучения в специализированных областях ограничивает их точность. Современные методы обучения обучают единую большую языковую модель (LLM) для всех агентов в системе. Это может ограничить производительность из-за различных распределений, лежащих в основе разных агентов. Поэтому следующим шагом должно стать обучение многоагентных систем с различными LLM. Тем не менее этот подход создает проблемы оптимизации. Например, агенты работают на разной частоте, развертывания включают различные вызовы субагентов, и часто агенты развернуты на отдельных серверах, что нарушает поток градиента от начала до конца. Для решения этих проблем мы предлагаем M-GRPO — иерархическое расширение метода групповой относительной оптимизации политики, предназначенное для вертикальных многоагентных систем с главным агентом (планировщиком) и несколькими субагентами (исполнителями инструментов с множественными вызовами). M-GRPO вычисляет преимущества относительно группы

Полный текст статьи пока не загружен.

Читать оригинал статьи