Diff-IP2D: Прогнозирование взаимодействия рук с объектами на основе диффузионной модели для эгоцентрического видео
Краткое содержание
arXiv:2405.04370v5 Тип объявления: замена Аннотация: Понимание поведения человека во время взаимодействия руки с объектом имеет ключевое значение для приложений в области манипуляций сервисными роботами и расширенной реальности. Для достижения этой цели некоторые недавние работы предлагают одновременно прогнозировать траектории рук и возможности объектов на видеоматериалах от первого лица (эгоцентричных). Совместный прогноз служит комплексным представлением будущих взаимодействий руки с объектами в двумерном пространстве, указывая потенциальное движение человека и мотивацию. Однако существующие подходы преимущественно используют парадигму авторегрессии для однонаправленного предсказания, что лишает взаимных ограничений внутри целостной последовательности будущего и накапливает ошибки вдоль временной оси. В то же время эти исследования практически игнорируют влияние движения камеры на прогнозы от первого лица. Чтобы устранить указанные ограничения, мы предлагаем новый метод прогнозирования взаимодействия на основе диффузии — Diff-IP2D, предназначенный для прогноза будущих траекторий рук и возможностей объектов...
Полный текст статьи пока не загружен.