← Вернуться к списку

Объектно-ориентированные модели мира для причинно-осознанного обучения с подкреплением

Краткое содержание

arXiv:2511.14262v1 Тип объявления: кросс Аннотация: Мировые модели были разработаны для поддержки агентов глубокого обучения с подкреплением, эффективно использующих выборки. Тем не менее, остается сложной задачей точное воспроизведение сред, которые являются многомерными, нестатистическими и состоят из множества объектов со сложными взаимодействиями, поскольку большинство мировых моделей обучаются целостным представлениям всех компонентов среды. Напротив, люди воспринимают окружающую среду путем разбиения ее на дискретные объекты, что способствует эффективному принятию решений. Вдохновленные этим наблюдением, мы предлагаем метод \emph{«Трансформерное воображение слотов с причинно-ориентированным обучением с подкреплением»} (STICA) — унифицированную архитектуру, в которой объекто-центрированные трансформеры служат мировой моделью, а сети политики и ценности учитывают причинность. STICA представляет каждое наблюдение как набор токенов, ориентированных на объекты, вместе с токенами действия агента и полученного вознаграждения, позволяя мировой модели прогнозировать динамику на уровне токенов и

Полный текст статьи пока не загружен.