Точное межмодальное выравнивание тонкой структуры через моделирование с учетом гранулярности и неопределенности регионов
Краткое содержание
arXiv:2511.07710v1 Тип объявления: новый Аннотация: Точное сопоставление изображений и текста является ключевой задачей мультимодального обучения, лежащей в основе важных приложений, таких как визуальные вопрос-ответные системы, описание изображений и навигация на основе зрения и языка. В отличие от глобального выравнивания, точное (fine-grained) требует точного соответствия между локализованными визуальными областями и текстовыми токенами, часто осложняемого шумными механизмами внимания и упрощёнными моделями межмодальных отношений. В данной работе мы выявляем два фундаментальных ограничения существующих подходов: отсутствие надёжных внутримодальных механизмов оценки значимости визуальных и текстовых токенов, приводящее к плохой обобщаемости в сложных сценах; и отсутствие моделирования неопределённости на уровне деталей, неспособной учитывать природу соответствий типа один-к-многим и многие-к-одному между регионами и словами. Для решения указанных проблем предлагается унифицированный подход, включающий моделирование, учитывающее значимость и детализацию, а также оценку неопределённостей на региональном уровне.
Полный текст статьи пока не загружен.