DiffFP: Обучение поведению с нуля с помощью диффузионного метода фиктивной игры
Краткое содержание
arXiv:2511.13186v1 Тип: новая статья Аннотация: Обучение с подкреплением методом самосознания (self-play) продемонстрировало значительный успех в освоении сложного стратегического и интерактивного поведения в конкурентных играх с множеством агентов. Однако достижение такого поведения в непрерывных пространствах решений остается сложной задачей. Обеспечение адаптивности и способности к обобщению в условиях самосознания критически важно для достижения конкурентной производительности в динамичных многопользовательских средах. Эти проблемы часто приводят к медленной сходимости методов или их полной расходимости к равновесию Нэша, что делает агентов уязвимыми для стратегической эксплуатации со стороны непредвиденных противников. Для решения этих проблем мы предлагаем DiffFP — структуру фиктивных игр (Fictitious Play, FP), которая оценивает наилучший ответ на действия непредвиденных противников, одновременно обучая робастную и мультимодальную поведенческую политику. В частности, мы аппроксимируем наилучший ответ с помощью диффузионной политики, которая использует генеративное моделирование для изучения адаптивных и разнообразных стратегий. В ходе эмпирической оценки мы демонстрируем
Полный текст статьи пока не загружен.