Есть ли разница в архитектуре глубокого обучения с подкреплением при выполнении нескольких действий вместо одного действия?
Краткое содержание
Я разработал агента с глубоким детерминированным градиентом политики для обработки любых игр/задач с одним действием. Однако агент явно терпит крах при наличии двух или более действий. Я искал в интернете примеры реализации DDPG на системах с несколькими действиями, но большинство людей применяли её к задаче маятника, которая является однодейственной проблемой. Для моей текущей системы это система из 3 состояний и 2 непрерывных управляющих действий (одно для регулировки температуры системы, другое для настройки механического положения, оба непрерывные). Однако я заморозил второе непрерывное действие как оптимальное всегда. Таким образом, RL нужно было манипулировать только одним действием. Она решается за 30 эпизодов. Однако, как только я разрешаю RL попробовать оба непрерывных действия, она даже не сходится после 1000 эпизодов. На самом деле, она агрессивно расходится. Выход сети актора всегда кажется максимальным действием, возможно, из-за того, что я использую
Полный текст
Задано 7 лет, 3 месяца назад
9 $\begingroup$ Я построил агента глубокого детерминированного градиента политики для решения задач с одним действием. Однако агент плохо справляется при наличии двух или более действий. Я искал в интернете примеры реализации DDPG на системе с несколькими действиями, но большинство людей применяли его к проблеме маятника, которая является однодейственной задачей. Для моей текущей системы это система из 3 состояний и 2 непрерывных действий (одно для регулировки температуры системы, другое для регулировки механического положения, оба непрерывные). Однако я зафиксировал второе непрерывное действие как оптимальное. Таким образом, RL управляет только одним действием. Он решается за 30 эпизодов. Однако, когда я разрешаю RL попробовать оба непрерывных действия, оно даже не сходится после 1000 эпизодов. На самом деле, оно агрессивно расходится. Выход сети актора всегда является максимальным действием, возможно, из-за использования активации tanh для ограничения выхода актора. Я добавил штраф за большие действия, но он не работает в случае с двумя непрерывными действиями. Для моего исследовательского шума я использовал шум Орнштейна-Уленбека, с средними значениями, скорректированными для двух разных непрерывных действий. Среднее значение шума составляет 10% от среднего действия. Есть ли огромная разница между одиночным и множественным действием DDPG? Я изменил функцию вознаграждения, чтобы учитывать оба действия, попробовал создать более крупную сеть, использовал приоритетное воспроизведение и т. д., но кажется, что я чего-то не понимаю. Кто-нибудь здесь имеет опыт построения DDPG с множественными действиями и может дать мне несколько подсказок? Машинное обучение с подкреплением, глубокое RL, DDPG, пространства действий.
Изменено 28 марта 2021 г. в 1:32 nbro 43.2k 14 14 золотых значков 121 121 серебряных значка 222 222 бронзовых значка
Задано 24 августа 2018 г. в 21:11 Rui Nian 443 4 4 серебряных значка 13 13 бронзовых значков $\endgroup$ 7 3 $\begingroup$ Технически, разница здесь между действиями в (некотором подмножестве) $\mathbb{R}$ и $\mathbb{R}^n$, а не между одним или несколькими "действиями". Другими словами, у вас здесь пространство действий с несколькими измерениями, и что-то идет не так для вашего агента, когда их два или более. В RL, когда говорят о "двух действиях", это обычно подразумевает дискретные варианты - т. е. агент может выбрать действие A или B, и нет вовлеченных количеств.
Изменено 25 августа 2018 г. в 7:09 Neil Slater – Neil Slater
Комментарий от Aug 25, 2018 at 7:09 2 $\begingroup$ Здравствуйте, Нил, спасибо за ответ. Да, для классического RL действия агента действительно дискретны. Однако в 2015 году Лиликраап опубликовал статью под названием "непрерывное управление с помощью глубокого обучения с подкреплением", и затем в 2017 году были разработаны алгоритмы TRPO и PPO, чтобы позволить агентам выполнять несколько непрерывных действий. Да, вы правы насчет того, что мое действие находится в пространстве с высокой размерностью. В моих исследованиях я сравниваю управление предсказательной моделью с оптимизацией траектории и AI-основанным контролем. Обычно в робототехнике и мехатронике роботы перемещают несколько частей. Я пытаюсь достичь этого с помощью RL.
Изменено 26 августа 2018 г. в 4:41 Rui Nian – Rui Nian
Комментарий от Aug 26, 2018 at 4:41 1 $\begingroup$ Я предлагаю отредактировать более точное описание вашей задачи RL, чтобы заменить фразу "Для моей текущей системы это система из 3 состояний и 2 действий." - потому что так она не описывается ни в одной литературе. Также может быть полезно объяснить, как вы скорректировали функцию исследования ("шум актора"), поскольку ошибка там была бы ключевой.
Изменено 26 августа 2018 г. в 9:16 Neil Slater – Neil Slater
Комментарий от Aug 26, 2018 at 9:16 1 $\begingroup$ Отредактировано! Я также...
Перевод на русский:
Есть ли разница в архитектуре глубокого обучения с подкреплением при выполнении нескольких действий вместо одного? Задано 7 лет, 3 месяца назад Изменено сегодня Просмотрено 1k раз
Задано 7 лет, 3 месяца назад
9 $\begingroup$ Я создал агента с глубоким детерминированным градиентом политики для работы с задачами, имеющими только одно действие. Однако этот агент плохо справляется при наличии двух или более действий. Я искал в интернете примеры реализации DDPG на системах с несколькими действиями, но большинство людей применяли его к проблемам типа маятника, которые являются однодейственными задачами. Для моей текущей системы это система из 3 состояний и 2 непрерывных действий (одно для регулировки температуры системы, другое для управления механическим положением, оба непрерывные). Однако я зафиксировал второе непрерывное действие как оптимальное. Таким образом, RL управляет только одним действием. Он решает задачу в течение 30 эпизодов. Но когда я разрешаю RL попробовать оба непрерывных действия, оно не сходится даже после 1000 эпизодов. На самом деле, оно агрессивно расходится. Выход сети актора всегда является максимальным действием, возможно из-за использования активации tanh для ограничения выхода актора. Я добавил штраф за большие действия, но он не работает в случае с двумя непрерывными действиями. Для моего исследовательского шума я использовал Орнштейна-Уленбека с средними значениями, скорректированными для двух разных непрерывных действий (среднее значение шума составляет 10% от среднего действия). Есть ли значительная разница между одиночным и множественным действием DDPG? Я изменил функцию вознаграждения, чтобы учитывать оба действия, попробовал создать более крупную сеть, использовал приоритетное воспроизведение и т. д., но кажется, что я чего-то не понимаю. Кто-нибудь здесь имеет опыт построения DDPG с множественными действиями и может дать мне несколько подсказок? Машинное обуч