← Вернуться к списку
Что мне делать, агент обучения с подкреплением выдает разные результаты при каждой тренировке?
Краткое содержание
Я использую PPO+LSTM для создания торгового бота. Агент обучен на 3-летних данных и протестирован на 1 год. Каждый раз, когда я обучаю агента с одним и тем же набором гиперпараметров, я получаю очень разные результаты на тестовых данных (изменение портфеля по окончании периода тестирования). Я думаю, что это происходит из-за случайной инициализации параметров нейронной сети и достижения решения разными локальными максимумами. Как мне оценить агента, если он показывает изменение от отрицательного до положительного значения при каждом обучении?
Полный текст статьи пока не загружен.