Трансформерные масштабируемые системы многoагентного обучения с подкреплением для сетевых систем с дальнодействующими взаимодействиями
Краткое содержание
arXiv:2511.13103v1 Тип объявления: новый Аннотация: Многопользовательское обучение с подкреплением (MARL) показало свою перспективность для управления крупномасштабными сетями, однако существующие методы сталкиваются с двумя основными ограничениями. Во-первых, они обычно опираются на предположения, ведущие к свойствам затухания локальных взаимодействий агентов, что ограничивает их способность учитывать дальнодействующие зависимости, такие как каскадные отказы в энергосистемах или вспышки эпидемий. Во-вторых, большинство подходов не обладают способностью к обобщению для различных топологий сетей, требуя переобучения при применении к новым графам. Мы представляем STACCA (Shared Transformer Actor-Critic with Counterfactual Advantage) — унифицированную структуру MARL на основе трансформера, которая решает обе проблемы. STACCA использует централизованный Графовый Трансформер-Критик для моделирования дальнодействующих зависимостей и предоставления обратной связи на уровне системы, в то время как её общий Графовый Трансформер-Актор обучает обобщаемую политику, способную адаптироваться к различным сетевым структурам. Кроме того, для улучшения распределения заслуг в процессе обучения, STACCA интегрирует
Полный текст статьи пока не загружен.