← Вернуться к списку

CascadedViT: Каскадный блок с каскадным потоком данных по частям и каскадное групповое внимание в трансформере для обработки визуальной информации

Краткое содержание

arXiv:2511.14111v1 Тип объявления: кросс Аннотация: Трансформеры для компьютерного зрения (ViT) продемонстрировали выдающиеся результаты в различных задачах компьютерного зрения; однако их высокие требования к вычислительным ресурсам, памяти и энергопотреблению препятствуют развертыванию на платформах с ограниченными ресурсами. В данной статье мы предлагаем архитектуру трансформера для компьютерного зрения под названием \emph{Cascaded-ViT (CViT)} — легковесную и энергоэффективную модель со специально разработанной сетью прямого распространения данных, называемой \emph{Cascaded-Chunk Feed Forward Network (CCFFN)}. Разбивая входные признаки, CCFFN повышает эффективность параметров и операций без потери точности. Эксперименты на наборе данных ImageNet-1K показывают, что наша модель \emph{CViT-XL} достигает точности распознавания по первому классу (Top-1) в 75,5%, при этом снижая количество операций (FLOPs) на 15% и потребление энергии на 3,3% по сравнению с моделью EfficientViT-M5. Во всех размерах моделей семейство CViT демонстрирует наименьшее энергопотребление, что делает его подходящим для использования на устройствах с ограниченным питанием, таких как мобильные телефоны и дроны. Кроме того, когда

Полный текст статьи пока не загружен.