FaNe: В сторону детального межмодального контраста с редукцией ложных отрицаний и разреженным вниманием, обусловленным текстом
Краткое содержание
arXiv:2511.12215v1 Тип: новая работа Аннотация: Предобучение медицинских моделей «визуальный язык» (VLP) открывает значительные перспективы для улучшения понимания медицинских изображений за счет использования парных данных «изображение-отчет». Однако существующие методы ограничены проблемой **ложноотрицательных** сэмплов (FaNe), вызванной семантически схожими текстами, и недостаточно точным межмодальным согласованием на детальном уровне. Для решения этих проблем мы предлагаем FaNe — семантически улучшенную框架 VLP. Для снижения ложных отрицаний мы вводим стратегию семантического поиска позитивных пар на основе тексто-текстового сходства с адаптивной нормализацией. Кроме того, мы разработали модуль разреженного текст-обусловленного пулинга с вниманием, который обеспечивает детальное согласование изображений и текстов через локализованные визуальные представления, управляемые текстовыми сигналами. Для усиления внутримодальной дискриминации мы создали контрастную функцию потерь с учетом сложных отрицательных примеров, которая адаптивно перевзвешивает семантически близкие негативные сэмплы. Многочисленные эксперименты на пяти эталонных наборах медицинских изображений демонстрируют
Полный текст статьи пока не загружен.