SemCo: В направлении прогнозирования семантически согласованных визуальных отношений

2025-11-19 05:00:00

Краткое содержание

arXiv:2107.01181v2 Тип объявления: замена-перекрёстная публикация Аннотация: Прогнозирование визуальных отношений (Visual Relationship Forecasting, VRF) направлено на предсказание взаимоотношений между объектами без наблюдения за будущим визуальным контентом. Задача заключается в захвате и моделировании семантической согласованности во взаимодействиях объектов, поскольку она определяет эволюцию событий и сцен в видео. Однако существующие наборы данных для задачи VRF предоставляют ограниченную поддержку для обучения такой согласованности из-за шумных аннотаций в наборах данных и слабых корреляций между различными действиями и переходами отношений в парах субъект-объект. Кроме того, существующие методы испытывают трудности с различением схожих отношений и переобучаются к неизменным отношениям в последовательных кадрах. Для решения этих проблем мы представляем SemCoBench — бенчмарк, который подчеркивает важность семантической согласованности при прогнозировании визуальных отношений. На основе меток действий и краткосрочных пар субъект-объект SemCoBench разделяет категории и динамику отношений путем очистки и реорганизации видеоданных для обеспечения...

Полный текст статьи пока не загружен.

Читать оригинал статьи