← Вернуться к списку

Экспрессивные временные спецификации для мониторинга вознаграждений

Краткое содержание

arXiv:2511.12808v1 Тип: новая работа Аннотация: Задание информативных и плотных функций вознаграждения остается ключевой проблемой в обучении с подкреплением, поскольку это напрямую влияет на эффективность тренировки агента. В данной работе мы используем выразительную мощь количественной линейной темпоральной логики на конечных трассах ($\text{LTL}_f[\mathcal{F}]$) для синтеза мониторов вознаграждения, которые генерируют плотный поток вознаграждений для наблюдаемых во время выполнения траекторий состояний. Обеспечивая тонкую обратную связь в процессе обучения, эти мониторы направляют агентов к оптимальному поведению и помогают смягчить известную проблему разреженных вознаграждений при принятии решений с длинным горизонтом, которая возникает при доминирующей в современной литературе булевой семантике. Наш подход является алгоритмически-агностическим и опирается только на функцию разметки состояний, а также естественным образом позволяет специфицировать немарковские свойства. Экспериментальные результаты показывают, что наши количественные мониторы последовательно поглощают и, в зависимости от среды, превосходят булевы

Полный текст статьи пока не загружен.