← Вернуться к списку

Не уменьшается ли потеря значения в Actor-Critic вообще?

Краткое содержание

Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря представляет собой сумму PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \mbox{L}_1\_\mbox{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от этого 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод на русский: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \mbox{L}_1\_\mbox{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\mbox{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском языке с сохранением технических терминов и оригинального стиля: Я кодирую проблему, используя метод Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага описан в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. На русском языке: Я кодирую проблему с использованием метода Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага приведен в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом', поэтому оно может колебаться. Перевод с сохранением технических терминов и оригинального стиля: Я кодирую проблему, используя метод Актор-Критик. Финальная потеря — это сумма PolicyLoss и ValueLoss. Расчет PolicyLoss для каждого шага описан в уравнении № 5 статьи https://arxiv.org/pdf/1707.06347.pdf. Для Valueloss: \(V_t = \gamma \times V_{t+1} + r_t\), \(\text{Valueloss} = \text{L}_1\_\text{Loss}(V_t, Value)\). Я проверил, что PolicyLoss зависит от 'Value' также. И PolicyLoss уменьшается, и поэтому части моей модели AI, зависящие от 'Value', тоже обновляются. Но я наблюдаю, что ValueLoss не уменьшается, хотя общая потеря (сумма ValueLoss и PolicyLoss) уменьшается. Я не понимаю, как сделать так, чтобы ValueLoss уменьшалась, или должна ли она вообще уменьшаться. Потому что уравнение для Valueloss предполагает ситуацию 'погони за хвостом',

Полный текст статьи пока не загружен.