О Времени: Беспристрастное обучение с подкреплением без моделей с Наградными Машинами по времени

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17637v1 Тип объявления: новое Аннотация: Спецификация награды играет центральную роль в обучении с подкреплением (RL), направляя поведение агента. Для выражения немарковских наград были введены формализмы, такие как машины наград, чтобы улавливать зависимости от историй. Однако традиционные машины наград не обладают способностью моделировать точные временные ограничения, что ограничивает их использование в приложениях, чувствительных ко времени. В данной статье мы предлагаем временные машины наград (TRM), которые являются расширением машин наград, включающим временные ограничения в структуру награды. TRM позволяют использовать более выразительные спецификации с настраиваемой логикой наград, например, налагать затраты за задержки и предоставлять награды за своевременные действия. Мы изучаем фреймворки RL без модели (т.е. табличное Q-обучение) для изучения оптимальных политик с TRM при цифровой и реальновременной семантике. Наши алгоритмы интегрируют TRM в обучение через абстракции временных автоматов и используют эвристику контрфактуального воображения.

Полный текст статьи пока не загружен.

Читать оригинал статьи