← Вернуться к списку

Переосмысление развития состояния памяти в роботизированной манипуляции: объекто-ориентированный подход

Краткое содержание

arXiv:2511.11478v1 Тип объявления: кросс Аннотация: По мере того как воплощённые агенты действуют во всё более сложных средах, способность воспринимать, отслеживать и рассуждать о конкретных экземплярах объектов во времени становится критически важной, особенно в задачах, требующих последовательного взаимодействия с визуально похожими объектами. В таких немарковских условиях ключевые сигналы принятия решений часто скрыты в истории конкретного объекта, а не в текущей сцене. Без устойчивого запоминания предыдущих взаимодействий (с каким объектом было взаимодействие, где он находился или как изменился), визуальные моторные политики могут давать сбои, повторять прошлые действия или упускать завершённые операции. Для выявления этой проблемы мы представляем LIBERO-Mem — набор немарковских задач для стресс-тестирования роботизированной манипуляции при частичной наблюдаемости на уровне отдельных объектов. Этот набор объединяет краткосрочное и долгосрочное отслеживание объектов с временными последовательно организованными подцелями, требуя рассуждений вне текущего кадра. Однако модели видения–языка–действия (VLA) зачастую испытывают трудности в таких ситуациях...

Полный текст статьи пока не загружен.