X-MoGen: Единый генератор движений для людей и животных
Краткое содержание
arXiv:2508.05162v2 Тип объявления: замена Аннотация: Генерация движений на основе текста привлекает всё большее внимание благодаря широкому спектру применений в виртуальной реальности, анимации и робототехнике. В то время как существующие методы обычно моделируют движения человека и животных отдельно, совместный межвидовый подход имеет ряд ключевых преимуществ, включая унифицированное представление и улучшенную обобщаемость. Однако морфологические различия между видами остаются основной проблемой, часто снижая правдоподобность движений. Для решения этой проблемы мы предлагаем X-MoGen — первую единую архитектуру для межвидовой генерации движений на основе текста, охватывающую как людей, так и животных. X-MoGen использует двухэтапную структуру. Сначала условный графический вариационный автокодировщик изучает канонические априорные позы типа Т, тогда как другой автокодировщик кодирует движение в общее латентное пространство, регулируемое потерей морфологии. На втором этапе выполняется маскированная моделирование движений для генерации векторных представлений движений, обусловленных текстовыми описаниями. Во время тренировки...
Полный текст статьи пока не загружен.