DeCo-VAE: Обучение компактных латентных представлений для реконструкции видео с помощью разделённого представления
Краткое содержание
arXiv:2511.14530v1 Тип объявления: кросс Аннотация: Существующие вариационные автокодировщики видео (VAE) обычно игнорируют сходство между содержимым кадров, что приводит к избыточному моделированию латентного пространства. В данной работе мы предлагаем декомпозированный VAE (DeCo-VAE), который позволяет получить компактное латентное представление. Вместо прямого кодирования пикселей RGB, мы разлагаем содержимое видео на отдельные компоненты посредством явной декомпозиции: ключевой кадр, движение и остаточный компонент, обучая специализированное латентное представление для каждого из них. Чтобы избежать взаимовлияния компонентов, мы разработали специализированные энкодеры для каждого компонента после декомпозиции и используем общий трехмерный декодер для поддержания пространственно-временной согласованности при реконструкции. Мы также применяем стратегию адаптивного обучения с разделением задач, которая замораживает часть энкодеров во время последовательного обучения других, обеспечивая стабильную тренировку и точное изучение как статических, так и динамических признаков. Обширные количественные и качественные эксперименты показывают, что DeCo-VAE обеспечивает превосходную реконструкцию видео по сравнению с существующими методами.
Полный текст статьи пока не загружен.