Видоориентированная кросс-модальная дистилляция для распознавания действий по нескольким видам

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12870v1 Тип объявления: новый Аннотация: Широкое распространение мультисенсорных систем повысило интерес к распознаванию действий в многовидовых конфигурациях. В то время как существующие подходы в условиях полного перекрытия сенсоров используют преимущества согласованного покрытия видов, ситуации частичного перекрывания, когда действия видны лишь в подмножестве видов, остаются недостаточно изученными. Эта проблема становится еще острее в реальных сценариях, поскольку многие системы предоставляют ограниченные входные модальности и полагаются на аннотации уровня последовательности, а не плотные метки на уровне кадров. В данной работе мы предлагаем метод передачи знаний между видами и модальностями — View-aware Cross-modal Knowledge Distillation (ViCoKD). Это фреймворк, который передает знания от полностью контролируемого мультимодального учителя к ученику с ограниченными модальностями и аннотациями. ViCoKD применяет кросс-модальный адаптер с механизмом внимания между модальностями, позволяя ученику использовать межмодальные корреляции даже при неполной доступности модальностей. Более того, нами предложен модуль View-aware Consistency для решения проблемы...

Полный текст статьи пока не загружен.

Читать оригинал статьи