Квантильное Q-обучение: Переосмысление экстремального офлайн Q-обучения с помощью квантильной регрессии
Краткое содержание
arXiv:2511.11973v1 Тип объявления: новый Аннотация: Офлайн-обучение с подкреплением (ORL) позволяет обучать политику на фиксированных наборах данных без дальнейшего взаимодействия со средой, что делает его особенно ценным в областях с высоким риском или большими затратами. Extreme $Q$-Learning (XQL) — это недавно предложенный метод офлайн ORL, который моделирует ошибки Беллмана с помощью теоремы об экстремальных значениях, демонстрируя высокую практическую эффективность. Однако XQL и его стабилизированный вариант MXQL обладают существенными недостатками: оба требуют обширного подбора гиперпараметров для каждого конкретного набора данных и предметной области, а также проявляют нестабильность в процессе обучения. Для решения этих проблем мы предложили принципиальный метод оценки температурного коэффициента $\beta$ с помощью квантильной регрессии при слабых предположениях. Для дальнейшего повышения стабильности обучения мы вводим технику регуляризации функции ценности со слабой генерализацией, вдохновлённую последними достижениями в области обучения с ограничениями на функцию ценности. Результаты экспериментов показывают, что предложенный алгоритм достигает конкурентоспособных
Полный текст статьи пока не загружен.