Обучение на римановых многообразиях для игр Штакельберга с нейросетевыми представлениями потоков
Краткое содержание
arXiv:2502.05498v2 Тип объявления: replace Аннотация: Мы представляем новую структуру для онлайн-обучения в играх Штакельберга с ненулевой суммой, где два агента, лидер и последователь, вступают в последовательные пошаговые взаимодействия. В основе этого подхода лежит обученный диффеоморфизм, который отображает пространство совместных действий на гладкое сферическое риманово многообразие, называемое многообразием Штакельберга. Это отображение, обеспечиваемое нейронными нормирующими потоками, гарантирует формирование управляемых изоплоскостных подпространств, что позволяет применять эффективные методы онлайн-обучения. Благодаря линейности функций выигрыша агентов на многообразии Штакельберга, наша конструкция позволяет применять алгоритмы линейных бандитов. Затем мы предоставляем строгое теоретическое обоснование минимизации сожаления на обученном многообразии и устанавливаем границы простого сожаления для обучения равновесию Штакельберга. Эта интеграция обучения многообразий в теорию игр раскрывает ранее не признанный потенциал нейронных норм
Полный текст статьи пока не загружен.