Глубокий детерминированный градиент политики с симметричной аугментацией данных для управления отслеживанием бокового положения самолета с неподвижным крылом
Краткое содержание
arXiv:2407.11077v2 Announce Type: replace Аннотация: Симметрия динамических систем может быть использована для предсказания переходов между состояниями и для облегчения оптимизации стратегий управления. В данной работе симметрия системы используется для разработки подходов к обучению с подкреплением (RL) на оффлайн-данных с высокой эффективностью использования выборок. В предположении симметрии марковского процесса принятия решений (MDP) предлагается метод симметричного расширения данных. Расширенные выборки интегрируются в набор данных алгоритма Deep Deterministic Policy Gradient (DDPG) для повышения степени покрытия пространства состояний-действий. Кроме того, эффективность использования выборок повышается за счёт введения второго критика, обученного на расширенных данных, что приводит к двухкритической структуре. Модель летательного аппарата проверена на симметрию, и имитационные эксперименты по управлению полётом демонстрируют ускоренную сходимость стратегии при использовании расширенных данных.
Полный текст статьи пока не загружен.