Подход глубокого обучения с подкреплением для максимизации чистой приведенной стоимости стохастических проектов
Краткое содержание
arXiv:2511.12865v1 Тип: новая работа Аннотация: В данной статье исследуется проект со стохастической продолжительностью работ и денежными потоками в рамках дискретных сценариев, где работы должны удовлетворять ограничениям предшествования и генерировать денежные притоки и оттоки. Цель заключается в максимизации ожидаемой чистой приведенной стоимости (NPV) за счёт ускорения притоков и отсрочки оттоков. Мы формулируем задачу как марковский процесс принятия решений (МППР) в дискретном времени и предлагаем подход на основе двойной глубокой Q-сети (DDQN). Сравнительные эксперименты демонстрируют, что DDQN превосходит традиционные жёсткие и динамические стратегии, особенно в условиях крупномасштабных или сильно неопределённых сред, проявляя превосходную вычислительную способность, надёжность политики и адаптивность. Результаты ablation-тестов дополнительно показывают, что двухсетевая архитектура смягчает переоценку значений действий, в то время как целевая сеть существенно улучшает сходимость обучения и робастность. Эти результаты указывают на то, что DDQN не только достигает более высокой ожидаемой NPV
Полный текст статьи пока не загружен.