Обнаружение замаскированных объектов с помощью перекрестного внимания с перекрывающимися окнами многоуровневого контекста
Краткое содержание
arXiv:2511.13249v1 Тип объявления: новый Аннотация: Задача обнаружения замаскированных объектов с использованием референсной информации (Ref-COD) заключается в выявлении скрытых объектов путем интеграции справочной информации, такой как изображения и текстовые описания. Предыдущие исследования преобразовывали изображения с выделенными объектами в одномерные подсказки, достигая значительных результатов. Мы исследуем способы повышения производительности через многоуровневую интеграцию богатых признаков изображений с выделенными объектами и признаками маскируемых объектов. В связи с этим мы предлагаем сеть RFMNet, которая использует признаки из нескольких этапов кодирования референсных изображений с выделенными объектами и осуществляет интерактивное слияние с признаками маскировки на соответствующих этапах кодирования. Учитывая, что признаки в изображениях с выделенными объектами содержат большое количество детализированной объектной информации, выполнение объединения признаков внутри локальных областей оказывается более полезным для выявления замаскированных объектов. Поэтому мы предлагаем механизм перекрывающихся окон перекрестного внимания (Overlapped Windows Cross-attention), позволяющий модели сосредоточивать большее внимание
Полный текст статьи пока не загружен.