Доказуемо Эффективные Многокритериальные Бандитские Алгоритмы в Условиях Персонализации на Основе Предпочтений

2025-11-18 05:00:00

Краткое содержание

arXiv:2502.13457v2 Announce Type: replace Аннотация: В задачах многорукого бандита с несколькими целевыми показателями (MO-MAB) традиционной целью является достижение Парето-оптимальности. Однако в реальных сценариях пользователи часто имеют различные предпочтения относительно целей, в результате чего Парето-оптимальный вариант может иметь высокую оценку для одного пользователя, но показывать довольно низкие результаты для другого. Это подчеркивает необходимость кастомизированного обучения — фактора, которому часто не уделялось внимания в предыдущих исследованиях. Для решения этой проблемы мы изучаем framework многорукого бандита с несколькими целевыми показателями, учитывающий предпочтения, при наличии явного предпочтения пользователя. Он смещает фокус с достижения Парето-оптимальности на дальнейшую оптимизацию внутри Парето-фронта в рамках ориентации на предпочтения. Насколько нам известно, это первое теоретическое исследование кастомизированной оптимизации MO-MAB с явными пользовательскими предпочтениями. Руководствуясь практическими приложениями, мы исследуем два сценария: неизвестное предпочтение и скрытое предпочтение, каждый из которых представляет уникальные проблемы для проектирования и анализа алгоритмов. В основе

Полный текст статьи пока не загружен.

Читать оригинал статьи