← Вернуться к списку

Отношение между регуляризацией и (эффективным) дисконтированием в глубоком обучении Q.

Краткое содержание

У меня есть обучаемый с подкреплением типа deep-Q-network в среде типа aminigrid. После обучения я могу поместить агента в ряд искусственно созданных ситуаций и измерить его Q-значения, а затем вывести его эффективную ставку дисконтирования на основе этих Q-значений (например, вывести фактор дисконтирования на основании того, как значение при перемещении вперед меняется с приближением к цели). Когда я таким образом измеряю эффективный фактор дисконтирования, он соответствует явному значению фактора дисконтирования (𝛾), которое я использовал. Но если добавить очень сильную регуляризацию L2 (затухание весов) в сеть, выведенный фактор дисконтирования уменьшается, даже если я не изменял настройки 𝛾 агента. Не мог бы кто-нибудь помочь мне разобраться, почему это происходит? Спасибо!

Полный текст статьи пока не загружен.