Иерархическое обучение подсказкам для повторной идентификации личности по изображениям и тексту

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13575v1 Тип объявления: новый Аннотация: Задача идентификации личности (ReID) заключается в поиске целевых изображений пешехода по визуальным запросам (изображение-к-изображению, I2I) либо текстовым описаниям (текст-к-изображению, T2I). Несмотря на общую цель поиска, обе задачи имеют различные особенности: задача I2I акцентирует внимание на обучении дискриминантной идентичности, тогда как T2I требует точного семантического выравнивания между разными модальными представлениями. Современные методы часто рассматривают эти задачи раздельно, что может привести к запутанности представлений и снижению производительности. Для решения данной проблемы мы предлагаем унифицированную архитектуру под названием Иерархическое обучение подсказок (Hierarchical Prompt Learning — HPL), использующую адаптированное к задаче моделирование подсказок для совместного оптимизационного процесса обеих задач. В частности, мы вводим трансформер с маршрутизацией задач (Task-Routed Transformer), который интегрирует двойные классификационные токены в общий визуальный энкодер для направления признаков соответственно ветвям I2I и T2I. Дополнительно разрабатывается иерархическая схема генерации подсказок, объединяющая идентификационный уровень обучения...

Полный текст статьи пока не загружен.

Читать оригинал статьи