← Вернуться к списку

Масштабируемое многокритериальное и мета-обучение с подкреплением через оценку градиента

Краткое содержание

arXiv:2511.12779v1 Тип объявления: новый Аннотация: Мы исследуем проблему эффективного оценивания политик, которые одновременно оптимизируют несколько целевых функций в обучении с подкреплением (RL). Имея $n$ целевых функций (или задач), мы ищем оптимальное разбиение этих целей на $k \ll n$ групп, где каждая группа включает в себя связанные цели, которые можно обучать совместно. Эта проблема возникает в таких приложениях, как робототехника, управление и оптимизация предпочтений в языковых моделях, где изучение единой политики для всех $n$ целей становится неоптимальным с ростом $n$. Мы представляем двухэтапную процедуру — мета-обучение с последующей тонкой настройкой — для решения этой проблемы. Сначала мы изучаем мета-политику для всех целей, используя многозадачное обучение. Затем мы адаптируем мета-политику для множества случайно выбранных подмножеств целей. Этап адаптации использует свойство аппроксимации первого порядка хорошо обученных сетей политик, которое, как эмпирически проверено, является точным в пределах погрешности $2\%$

Полный текст статьи пока не загружен.