Playmate2: Анимация с несколькими персонажами на основе аудио без предварительного обучения посредством диффузионного трансформера с обратной связью по вознаграждению
Краткое содержание
arXiv:2510.12089v2 Тип объявления: замена Аннотация: Последние достижения в области диффузионных моделей значительно улучшили качество и управляемость генерации видеоматериалов с участием человека на основе аудиоданных, превзойдя традиционные методы по обоим этим показателям. Тем не менее существующие подходы все еще сталкиваются с проблемами точности синхронизации губ, временной когерентности при создании длинных видео и анимации нескольких персонажей одновременно. В данной работе мы предлагаем фреймворк на базе трансформера-диффузора (DiT) для создания реалистичных говорящих видеороликов произвольной длины, а также вводим метод безобучающей анимации нескольких персонажей под управлением аудио. Во-первых, мы используем стратегию обучения на основе LoRA совместно с подходом к выводу со сдвигом позиции, что позволяет эффективно генерировать длинные видео, сохраняя возможности базовой модели. Кроме того, мы объединяем частичные обновления параметров с обратной связью вознаграждения для улучшения как синхронизации движений губ, так и естественных движений тела. Наконец, мы предлагаем подход без дополнительного обучения — Маску классификатора свободного руководства (Mask-C
Полный текст статьи пока не загружен.