Почему алгоритм PPO от OpenAI не использует метод дисконтирования, применяемый в работе Саттона и Барто?
Краткое содержание
Как обсуждалось в этом вопросе, алгоритмы градиентного спуска, представленные в книге "Обучение с подкреплением: введение", используют градиент: \begin{align*} \gamma^t \hat A_t \nabla_{\theta} \log \pi(a_t \, | \, s_t, \theta) \end{align*} где $\hat A_t$ — оценка преимущества для шага $t$. Например, $\hat A_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ в алгоритме actor-critic с одним шагом, представленном в разделе 13.5. В ответах на связанный вопрос утверждается, что дополнительное дисконтирование "правильно", что подразумевает его необходимость включения. Если я посмотрю в литературе на основополагающую работу, такую как "Алгоритмы оптимизации политики с использованием приближений" от OpenAI, то там отсутствует дополнительный фактор дисконтирования, т.е. используется градиент, определяемый как: \begin{align*} \hat A_t \dfrac{\nabla_{\theta}\pi(a_t \, | \, s_t, \theta)}{\pi(a_t \, | \,s_t, \theta_{\rm old})} \end{align*} который не включает фактор дисконтирования (конечно, это относится к случаю вне политики, но я не вижу, как это повлияет на
Полный текст статьи пока не загружен.