RTGen: Трансформер реального времени для генеративного обнаружения
Краткое содержание
arXiv:2502.20622v2 Тип объявления: замена Аннотация: Хотя объектные детекторы с открытым вокабуляром способны обобщаться на невидимые категории, они всё ещё зависят от предварительно заданных текстовых подсказок или классификаторов во время вывода. Современные генеративные объектные детекторы решают эту проблему путём объединения автокодирующей языковой модели с базовой моделью детектора, обеспечивая прямое порождение названия категории для каждого обнаруженного объекта. Однако такой прямой подход вводит структурную избыточность и значительную задержку. В данной работе мы предлагаем трансформер реального времени для генеративного обнаружения объектов — RTGen, обладающий компактной архитектурой кодировщика-декодера. Конкретнее, мы представляем новый декодер визуальных и лингвистических представлений — RL-декодер (Region-LLanguage Decoder), который совместно декодирует визуальные и текстовые представления внутри единой структуры. Текстовая сторона организована в виде направленного ациклического графа (Directed Acyclic Graph, DAG), что позволяет осуществлять именование категорий без авто-регрессии. Благодаря данным решениям, RTGen-R34 достигает производительности 131,3 кадра в секунду...
Полный текст статьи пока не загружен.