GAIS: Фреймовый гейтированный аудио-визуальный интеграционный метод с семантически масштабированным возмущением дисперсии для поиска по тексту и видео
Краткое содержание
arXiv:2508.01711v2 Тип объявления: замена-перекрёстная публикация Аннотация: Задача поиска видео по текстовому описанию требует точного согласования между языком и временно богатыми аудио-визуальными сигналами. Однако существующие методы часто делают акцент на визуальных подсказках, недооценивая семантику аудиосигналов или полагаясь на грубые стратегии объединения данных, что приводит к неоптимальным мультимодальным представлениям. Мы предлагаем GAIS — фреймворк для поиска, который усиливает мультимодальное согласование как с точки зрения представлений, так и регуляризации. Во-первых, модуль Frame-level Gated Fusion (FGF) адаптивно интегрирует аудио-визуальные признаки под руководством текста, обеспечивая тонкое временное выделение информативных кадров. Во-вторых, механизм Semantic Variance-Scaled Perturbation (SVSP) регулирует пространство текстовых векторов путём управления величиной возмущений в зависимости от семантики. Эти два модуля дополняют друг друга: FGF минимизирует разрыв между модальностями через селективное объединение признаков, а SVSP улучшает стабильность и различимость векторных представлений. Подробные эксперименты показывают...
Полный текст статьи пока не загружен.