О применении иерархических моделей зрительного восприятия для восстановления человеческой сетки (mesh) и оценки позы с низкими затратами

2025-11-18 05:00:00

Краткое содержание

arXiv:2510.12660v2 Тип анонса: замена Аннотация: В данной работе мы ставим целью разработать простые и эффективные модели восстановления человеческой сетки (HMR) и её предшественника — оценки поз человека (HPE). Современные методы HMR, такие как HMR2.0 и его последователи, используют большие нениерархические трансформеры видения в качестве кодировщиков, унаследованные от соответствующих моделей HPE типа ViTPose. Для установления базовых показателей при различных вычислительных бюджетах мы сначала создаём три облегчённые версии HMR2.0 путём адаптации соответствующих моделей ViTPose. Дополнительно предлагаем использовать ранние стадии иерархических фундаментальных визуальных моделей (VFM), включая Swin Transformer, GroupMixFormer и VMamba, в качестве кодировщиков. Такой подход обусловлен наблюдением, что промежуточные уровни иерархических VFM генерируют карты признаков с разрешением, сопоставимым или превышающим разрешение аналогичных нениерархических аналогов. Мы проводим всестороннюю оценку 27 вариантов HMR и HPE, основанных на иерархических VFM...

Полный текст статьи пока не загружен.

Читать оригинал статьи