Как в непрерывных пространствах действий представляется стандартное отклонение, связанное с гауссовским распределением из которого берутся действия?

18.07.2020 16:42

Краткое содержание

У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия выбираются из диагонального гауссовского распределения с вектором среднего $\mu$ и вектором стандартных отклонений $\sigma$. Как я понимаю, мы можем определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, стандартное отклонение $\sigma$ можно представить двумя разными способами: я не полностью понимаю первый метод. Значит ли это, что мы должны установить логарифмические стандартные отклонения в фиксированные числа? Тогда как мы выбираем эти числа?

Полный текст

В пространствах непрерывных действий, как представлено стандартное отклонение, связанное с гауссовским распределением из которого берутся действия? Задано 5 лет, 6 месяцев назад Изменено сегодня Просмотрено 661 раз

Задано 5 лет, 6 месяцев назад

1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, стандартное отклонение $\sigma$ может быть представлено двумя разными способами: Я не полностью понимаю первый метод. Значит ли это, что мы должны установить логарифмические стандартные отклонения в фиксированные числа? Тогда как мы выбираем эти числа?

Машинное обучение Политика градиентов Распределение вероятностей

Изменено 19 июля, 2020 в 1:00 M.S. 23 2 2 бронзовые значки задано 18 июля, 2020 в 16:42 M.S. 11 1 1 бронзовый значок

1 $\begingroup$ Если вы не получите ответ в это время, может быть хорошей идеей посмотреть на существующие реализации (например, на GitHub). $\endgroup$ nbro – nbro 2020-07-19 12:36:00 +00:00 Комментарий 19 июля, 2020 в 12:36 Добавить комментарий |

1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, первый способ представления стандартного отклонения заключается в использовании фиксированного значения для стандартного отклонения вместо обучаемого. Это значение выбирается экспериментально (по моему опыту, рекомендуется между 1 - 1.5, но в зависимости от вашей задачи другие значения могут подойти лучше). Игнорируйте 'log', достаточно положительного значения (причина использования логарифма заключается в том, что при работе с обучаемым стандартным отклонением голова сети производит отрицательные значения, которые считаются log(sigma), и они экспоненцируются для получения sigma и используются).

Машинное обучение Политика градиентов Распределение вероятностей

Ответил 7 сентября, 2023 в 6:53 Formula PS4 1 1 1 бронзовый значок Добавить комментарий |

В пространствах непрерывных действий стандартное отклонение гауссовского распределения из которого берутся действия, как правило, представляется двумя способами:

1. **Фиксированное значение**: В этом случае стандартное отклонение устанавливается в фиксированное число и не обучается. Это число выбирается экспериментально, например, между 1 и 1.5.

2. **Обучаемое значение**: В этом подходе стандартное отклонение рассматривается как параметр сети и может быть обучено вместе с другими весами. Однако, чтобы избежать получения отрицательных значений при обучении (что не имеет физического смысла для стандартного отклонения), часто используется логарифмическое преобразование: $\sigma = \exp(\text{log}\sigma)$. Это позволяет сети выдавать положительные значения, которые затем экспоненцируются.

Таким образом:

- **Фиксированное значение**: Выбирается на основе эмпирических данных и не изменяется в процессе обучения.

- **Обучаемое значение с логарифмическим преобразованием**: Стандартное отклонение представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для $\sigma$.

Вопрос: Как представить стандартное отклонение в пространствах непрерывных действий?

Задано 5 лет, 6 месяцев назад Изменено сегодня Просмотрено 661 раз

Задано 5 лет, 6 месяцев назад

1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, первый способ представления стандартного отклонения заключается в использовании фиксированного значения для стандартного отклонения вместо обучаемого.

1. **Фиксированное значение**: Это означает установку $\sigma$ на определенное число, например 0.5 или 1. Это число выбирается экспериментально и остается неизменным в процессе обучения.

2. **Обучаемое значение с логарифмическим преобразованием**: В этом случае $\sigma$ представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для стандартного отклонения после экспоненциации.

Как выбрать фиксированное значение? Обычно это делается на основе эмпирических данных и опыта. Например, в некоторых случаях может быть полезным начать с $\sigma = 0.1$ или $0.2$, а затем корректировать его в зависимости от поведения модели.

Ответ: В пространствах непрерывных действий стандартное отклонение гауссовского распределения может быть представлено как фиксированное значение или обучаемое с использованием логарифмического преобразования. Выбор между этими подходами зависит от конкретной задачи и опыта.

Изменено 19 июля, 2020 в 1:00 M.S. 23 2 2 бронзовые значки задано 18 июля, 2020 в 16:42 M.S. 11 1 1 бронзовый значок

1 $\begingroup$ Если вы не получите ответ в это время, может быть хорошей идеей посмотреть на существующие реализации (например, на GitHub). $\endgroup$ nbro – nbro 2020-07-19 12:36:00 +00:00 Комментарий 19 июля, 2020 в 12:36 Добавить комментарий |

**Перевод на русский язык:**

В пространствах непрерывных действий стандартное отклонение гауссовского распределения из которого берутся действия может быть представлено двумя способами:

1. **Фиксированное значение:** Стандартное отклонение устанавливается в фиксированное число, например 0.5 или 1. Это число выбирается экспериментально и остается неизменным в процессе обучения.

2. **Обучаемое значение с логарифмическим преобразованием:** В этом случае стандартное отклонение представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для $\sigma$ после экспоненциации.

Как выбрать фиксированное значение? Обычно это делается на основе эмпирических данных и опыта. Например, в некоторых случаях может быть полезным начать с $\sigma

Читать оригинал статьи