Глубокая (прогнозирующая) дисконтированная минимизация контрфактического сожаления
Краткое содержание
arXiv:2511.08174v1 Тип объявления: кросс Аннотация: Алгоритмы минимизации контрфактуального сожаления (CFR) представляют собой семейство методов эффективного решения игр с неполной информацией. Для повышения применимости CFR в крупных играх исследователи используют нейронные сети для аппроксимации поведения алгоритма. Однако существующие методы основаны главным образом на базовом варианте CFR и испытывают трудности с эффективным интегрированием более продвинутых вариантов CFR. В данной работе мы предлагаем эффективный бесконтактный алгоритм нейро-CFR, преодолевающий ограничения существующих подходов в приближении продвинутых версий CFR. На каждой итерации алгоритм собирает выборочные преимущества с уменьшенной дисперсией на основе оценочной сети, уточняет кумулятивные преимущества методом бутстрэппинга и применяет операции дисконтирования и отсечения для моделирования механизмов обновления продвинутых вариаций CFR. Экспериментальные результаты показывают, что предложенный метод демонстрирует более быструю сходимость по сравнению с бесконтактными нейросетевыми алгоритмами в типичных играх с неполной информацией и показывает лучшую производительность против сильных противников.
Полный текст статьи пока не загружен.