Трансформер с учетом движения для отслеживания нескольких объектов
Краткое содержание
arXiv:2509.21715v2 Тип объявления: замена Аннотация: Многотрековый трекинг объектов (MOT) в видеоматериалах остается сложной задачей ввиду сложных движений объектов и многолюдности сцен. Современные фреймворки на основе DETR предлагают решения типа «из конца в конец», однако обычно обрабатывают запросы детектирования и отслеживания совместно внутри одного слоя декодера трансформера, что приводит к конфликтам и снижению точности ассоциации. Мы предлагаем трансформер с учетом движения — MATR (Motion-Aware Transformer), который явно прогнозирует перемещения объектов между кадрами для предварительного обновления запросов треков. Снижая столкновения запросов, MATR обеспечивает более стабильное обучение и улучшает как обнаружение, так и ассоциацию. Обширные эксперименты на наборах данных DanceTrack, SportsMOT и BDD100K показывают, что MATR значительно повышает показатели по стандартным метрикам. На наборе DanceTrack MATR увеличивает показатель HOTA более чем на 9 пунктов относительно MOTR без дополнительного набора данных и достигает нового уровня передового результата — 71.3 с дополнительными данными. MATR также демонстрирует наилучшие результаты на SportsMOT (HOTA = 72.2) и BDD
Полный текст статьи пока не загружен.