Не уменьшается ли потеря значения в Actor-Critic вообще?

2022-02-26 09:55:46

Краткое содержание

Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря представляет собой сумму PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \mbox{L}_1\_\mbox{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от этого 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод на русский: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \mbox{L}_1\_\mbox{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском языке с сохранением технических терминов и оригинального стиля: Я кодирую проблему, используя метод Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага описан в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском языке: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод с сохранением технических терминов и оригинального стиля: Я кодирую проблему, используя метод Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага описан в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом',

Полный текст статьи пока не загружен.

Читать оригинал статьи