Является ли $s_0$ текущим состоянием в методе градиентного спуска политики?

2024-01-18 12:03:48

Краткое содержание

Как я понимаю из этого источника (OpenAI), целевая функция в Policy Gradient выглядит следующим образом: $$J(\pi_{\theta})=E_{\tau\sim\pi_{\theta}}[R(\tau)],$$ где $R(\tau)=r_0+r_1+...+r_T$, с $r_t$ взятым из траектории $\tau = (s_0,a_0,s_1,a_1,...)$, где $s_0$ определяется как начальное состояние, взятое из распределения $\rho_0$, и, следовательно, не зависит от параметра $\theta$ для политики $\pi$. Однако в более ранней туториале (OpenAI) определение функции ценности $V^{\pi}$ выглядит так: $V^{\pi}(s)=E_{\tau\sim\pi}[R(\tau)|s_0=s]$. По сравнению с определением в Sutton & Barto, то есть $V^{\pi}(s)=E_{\pi}[G_t|s_t=s]$. Могу ли я правильно понять, что OpenAI теперь определяет $s_0$ как текущее состояние? Если да, это противоречит более раннему определению в рамках Policy Gradient, где $s_0$ должно быть начальным состоянием, чтобы его вероятность не зависела от политики.

Полный текст статьи пока не загружен.

Читать оригинал статьи