Почти оптимальное обучение с подкреплением с перемешиванием дифференциальной приватности
Краткое содержание
arXiv:2411.11647v3 Тип объявления: replace Аннотация: Обучение с подкреплением (RL) — это мощный инструмент для принятия последовательных решений, но его применение часто затруднено из-за проблем с конфиденциальностью, возникающих из-за его данных взаимодействия. Эта проблема особенно остро стоит в современных сетевых системах, где обучение на операционных данных и данных пользователей может сделать системы уязвимыми для атак на раскрытие приватности. Существующие модели дифференциальной конфиденциальности (DP) для RL часто неадекватны: централизованная модель требует наличия полностью доверенного сервера, что создает риск единой точки отказа, в то время как локальная модель приводит к значительной деградации производительности, что неприемлемо для многих сетевых приложений. Данная статья заполняет этот пробел, используя перспективную перемешивающую модель конфиденциальности — промежуточную модель доверия, которая обеспечивает строгие гарантии конфиденциальности без предположения о централизованном доверии. Мы представляем Shuffle Differentially Private Policy Elimination (SDP-PE) — первый универсальный алгоритм на основе элиминации политик для эпизодического
Полный текст статьи пока не загружен.