← Вернуться к списку

FairDICE: Обучение с подкреплением в автономном режиме на основе справедливости для достижения нескольких целей

Краткое содержание

arXiv:2506.08062v2 Тип объявления: замена-перекрёстная публикация Аннотация: Многокритериальное обучение с подкреплением (MORL) направлено на оптимизацию стратегий в условиях конфликтующих целей, где линейное скалярирование обычно используется для преобразования векторных вознаграждений в скалярные сигналы. Хотя этот подход эффективен для определённых предпочтений, он не может охватить цели, ориентированные на справедливость, такие как благосостояние по Нэшу или максиминную справедливость, которые требуют нелинейного и неоднородного компромисса. Несмотря на то, что было предложено несколько онлайн-алгоритмов для конкретных целей справедливости, единый подход к оптимизации нелинейных критериев благополучия в офлайн-сценарии — когда обучение должно проводиться из фиксированного набора данных — остаётся неизученным. В данной работе мы представляем FairDICE, первую офлайн-фреймворк MORL, которая напрямую оптимизирует нелинейный критерий справедливости. FairDICE использует оценку коррекции распределения для совместного учёта максимизации благосостояния и регуляризации распределения, обеспечивая стабильное и эффективное использование выборки...

Полный текст статьи пока не загружен.