Текстово-направленное возмущение каналов и интеграция предварительно подготовленных знаний для унифицированного мультимодального слияния изображений

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12432v1 Тип объявления: новый Аннотация: Многомодальная слияние изображений улучшает восприятие сцены путем объединения дополняющей друг друга информации. Унифицированные модели стремятся совместно использовать параметры между модальностями для многомодального слияния изображений, однако значительные различия между модальностями часто приводят к конфликту градиентов, ограничивая производительность. Некоторые методы вводят модально-специфичные энкодеры для улучшения восприятия признаков и повышения качества слияния. Однако такая стратегия снижает обобщаемость при выполнении различных задач слияния. Для преодоления данного ограничения мы предлагаем унифицированную многомодовую архитектуру слияния изображений на основе канального возмущения и интеграции предварительно обученных знаний (UP-Fusion). Чтобы подавлять избыточную модальную информацию и выделять ключевые признаки, нами предложен модуль семантически осознанной фильтрации каналов (SCPM), который использует возможности семантического восприятия предварительно обученной модели для фильтрации и усиления многодоменных признаков. Дополнительно мы предложили геометрический аффинный модуляционный модуль (GAM),

Полный текст статьи пока не загружен.

Читать оригинал статьи