В пространствах непрерывных действий, как представлено стандартное отклонение, связанное с гауссовским распределением из которого берутся действия? Задано 5 лет, 6 месяцев назад Изменено сегодня Просмотрено 661 раз
Задано 5 лет, 6 месяцев назад
1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, стандартное отклонение $\sigma$ может быть представлено двумя разными способами: Я не полностью понимаю первый метод. Значит ли это, что мы должны установить логарифмические стандартные отклонения в фиксированные числа? Тогда как мы выбираем эти числа?
Машинное обучение Политика градиентов Распределение вероятностей
Изменено 19 июля, 2020 в 1:00 M.S. 23 2 2 бронзовые значки задано 18 июля, 2020 в 16:42 M.S. 11 1 1 бронзовый значок
1 $\begingroup$ Если вы не получите ответ в это время, может быть хорошей идеей посмотреть на существующие реализации (например, на GitHub). $\endgroup$ nbro – nbro 2020-07-19 12:36:00 +00:00 Комментарий 19 июля, 2020 в 12:36 Добавить комментарий |
1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, первый способ представления стандартного отклонения заключается в использовании фиксированного значения для стандартного отклонения вместо обучаемого. Это значение выбирается экспериментально (по моему опыту, рекомендуется между 1 - 1.5, но в зависимости от вашей задачи другие значения могут подойти лучше). Игнорируйте 'log', достаточно положительного значения (причина использования логарифма заключается в том, что при работе с обучаемым стандартным отклонением голова сети производит отрицательные значения, которые считаются log(sigma), и они экспоненцируются для получения sigma и используются).
Машинное обучение Политика градиентов Распределение вероятностей
Ответил 7 сентября, 2023 в 6:53 Formula PS4 1 1 1 бронзовый значок Добавить комментарий |
В пространствах непрерывных действий стандартное отклонение гауссовского распределения из которого берутся действия, как правило, представляется двумя способами:
1. **Фиксированное значение**: В этом случае стандартное отклонение устанавливается в фиксированное число и не обучается. Это число выбирается экспериментально, например, между 1 и 1.5.
2. **Обучаемое значение**: В этом подходе стандартное отклонение рассматривается как параметр сети и может быть обучено вместе с другими весами. Однако, чтобы избежать получения отрицательных значений при обучении (что не имеет физического смысла для стандартного отклонения), часто используется логарифмическое преобразование: $\sigma = \exp(\text{log}\sigma)$. Это позволяет сети выдавать положительные значения, которые затем экспоненцируются.
Таким образом:
- **Фиксированное значение**: Выбирается на основе эмпирических данных и не изменяется в процессе обучения.
- **Обучаемое значение с логарифмическим преобразованием**: Стандартное отклонение представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для $\sigma$.
Вопрос: Как представить стандартное отклонение в пространствах непрерывных действий?
Задано 5 лет, 6 месяцев назад Изменено сегодня Просмотрено 661 раз
Задано 5 лет, 6 месяцев назад
1 $\begingroup$ У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия берутся из диагонального гауссовского распределения с вектором среднего значения $\mu$ и стандартным отклонением $\sigma$. Как я понимаю, можно определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, первый способ представления стандартного отклонения заключается в использовании фиксированного значения для стандартного отклонения вместо обучаемого.
1. **Фиксированное значение**: Это означает установку $\sigma$ на определенное число, например 0.5 или 1. Это число выбирается экспериментально и остается неизменным в процессе обучения.
2. **Обучаемое значение с логарифмическим преобразованием**: В этом случае $\sigma$ представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для стандартного отклонения после экспоненциации.
Как выбрать фиксированное значение? Обычно это делается на основе эмпирических данных и опыта. Например, в некоторых случаях может быть полезным начать с $\sigma = 0.1$ или $0.2$, а затем корректировать его в зависимости от поведения модели.
Ответ: В пространствах непрерывных действий стандартное отклонение гауссовского распределения может быть представлено как фиксированное значение или обучаемое с использованием логарифмического преобразования. Выбор между этими подходами зависит от конкретной задачи и опыта.
Изменено 19 июля, 2020 в 1:00 M.S. 23 2 2 бронзовые значки задано 18 июля, 2020 в 16:42 M.S. 11 1 1 бронзовый значок
1 $\begingroup$ Если вы не получите ответ в это время, может быть хорошей идеей посмотреть на существующие реализации (например, на GitHub). $\endgroup$ nbro – nbro 2020-07-19 12:36:00 +00:00 Комментарий 19 июля, 2020 в 12:36 Добавить комментарий |
**Перевод на русский язык:**
В пространствах непрерывных действий стандартное отклонение гауссовского распределения из которого берутся действия может быть представлено двумя способами:
1. **Фиксированное значение:** Стандартное отклонение устанавливается в фиксированное число, например 0.5 или 1. Это число выбирается экспериментально и остается неизменным в процессе обучения.
2. **Обучаемое значение с логарифмическим преобразованием:** В этом случае стандартное отклонение представлено как $\log(\sigma)$, что позволяет сети генерировать положительные значения для $\sigma$ после экспоненциации.
Как выбрать фиксированное значение? Обычно это делается на основе эмпирических данных и опыта. Например, в некоторых случаях может быть полезным начать с $\sigma
← Вернуться к списку
Как в непрерывных пространствах действий представляется стандартное отклонение, связанное с гауссовским распределением из которого берутся действия?
Краткое содержание
У меня есть вопрос о реализации методов градиента политики для задач с непрерывными пространствами действий. Предположим, что действия выбираются из диагонального гауссовского распределения с вектором среднего $\mu$ и вектором стандартных отклонений $\sigma$. Как я понимаю, мы можем определить нейронную сеть, которая принимает текущее состояние на вход и возвращает $\mu$ как выход. Согласно OpenAI Spinning Up, стандартное отклонение $\sigma$ можно представить двумя разными способами: я не полностью понимаю первый метод. Значит ли это, что мы должны установить логарифмические стандартные отклонения в фиксированные числа? Тогда как мы выбираем эти числа?