MaskAnyNet: Переосмысление замаскированных областей изображений как ценной информации в контролируемом обучении
Краткое содержание
arXiv:2511.12480v1 Тип объявления: новый Аннотация: В контролируемом обучении традиционный метод маскирования изображений сталкивается с двумя ключевыми проблемами: (i) отброшенные пиксели используются недостаточно эффективно, что ведет к потере ценной контекстной информации; (ii) маскирование может удалять мелкие или критически важные признаки, особенно в задачах тонкой классификации. Напротив, модели маскированного восстановления изображений (MIM) показали, что замаскированные области могут быть восстановлены по частичному входу, демонстрируя, что даже неполные данные способны сохранять сильную контекстную согласованность с исходным изображением. Это подчеркивает потенциал замаскированных областей как источников семантического разнообразия. Руководствуясь этими соображениями, мы пересматриваем подход к маскированию изображений, предлагая рассматривать замаскированное содержимое как вспомогательные знания, а не игнорировать его. Исходя из этого, мы предлагаем архитектуру MaskAnyNet, объединяющую маскирование с механизмом переобучения для эффективного использования как видимых, так и замаскированных данных. Она легко интегрируется в любую модель путем добавления дополнительного блока, позволяющего совместно учиться на реконструированной замаскированной области. Это
Полный текст статьи пока не загружен.