Обучение оптимальному распределительно-робастному стохастическому управлению в непрерывных пространствах состояний
Краткое содержание
arXiv:2406.11281v2 Тип анонса: replace-cross Аннотация: Мы исследуем обучение, основанное на данных, для робастного стохастического управления системами с бесконечным горизонтом планирования и потенциально непрерывными пространствами состояний и действий. Во многих управленческих контекстах — цепочки поставок, финансы, производство, сфера услуг и динамические игры — механизм переходов между состояниями определяется проектированием системы, в то время как доступные данные отражают распределительные свойства стохастических входных воздействий из окружающей среды. Для удобства моделирования и вычислительной tractability, лицо, принимающее решение, часто использует марковскую модель управления с независимыми и одинаково распределенными (н.о.р.) входными воздействиями среды, что может делать изученные политики (стратегии) уязвимыми к внутренним зависимостям или внешним возмущениям. Мы представляем парадигму распределительно робастного стохастического управления, которая повышает надежность политик за счет введения адаптивных враждебных возмущений входных воздействий среды, сохраняя при этом модельную, статистическую и вычислительную tractability марковской формулировки. С точки зрения моделирования, мы
Полный текст статьи пока не загружен.