Перераспределение вознаграждения с помощью оценки правдоподобия по гауссовскому процессу

2025-11-18 05:00:00

Краткое содержание

arXiv:2503.17409v2 Тип объявления: замена Аннотация: Во многих практических задачах обучения с подкреплением обратная связь предоставляется только в конце длительного горизонта, что приводит к разреженным и запаздывающим вознаграждениям. Существующие методы перераспределения вознаграждений обычно предполагают, что пошаговые вознаграждения независимы, тем самым игнорируя взаимозависимости между парами состояние-действие. В данной статье мы предлагаем фреймворк перераспределения вознаграждений на основе правдоподобия и гауссовских процессов (GP-LRR), который решает эту проблему, моделируя функцию вознаграждения как выборку из гауссовского процесса, что явно захватывает зависимости между парами состояние-действие с помощью функции ядра. Максимизируя правдоподобие наблюдаемого эпизодического возврата с помощью стратегии «исключения по одному», которая использует всю траекторию, наш фреймворк по своей сути вводит регуляризацию неопределенности. Более того, мы показываем, что классическое перераспределение вознаграждений на основе среднеквадратической ошибки (MSE) возникает как частный случай нашего фреймворка GP-LRR при использовании вырожденного ядра.

Полный текст статьи пока не загружен.

Читать оригинал статьи