Что мне делать, агент обучения с подкреплением выдает разные результаты при каждой тренировке?

2023-02-26 15:28:19

Краткое содержание

Я использую PPO+LSTM для создания торгового бота. Агент обучен на 3-летних данных и протестирован на 1 год. Каждый раз, когда я обучаю агента с одним и тем же набором гиперпараметров, я получаю очень разные результаты на тестовых данных (изменение портфеля по окончании периода тестирования). Я думаю, что это происходит из-за случайной инициализации параметров нейронной сети и достижения решения разными локальными максимумами. Как мне оценить агента, если он показывает изменение от отрицательного до положительного значения при каждом обучении?

Полный текст статьи пока не загружен.

Читать оригинал статьи