Адаптивные Токены Начала Видео для Авторегрессионных Моделей Видеодиффузии

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12099v1 Тип объявления: новый Аннотация: Последние достижения в диффузионной генерации видео позволили создавать впечатляющие короткие видеоролики высокой точности. Для распространения этих успехов на генерацию согласованных длинных видео большинство диффузионных моделей видео (VDM) генерируют видео авторегрессивным способом, т.е. создают последующие кадры на основе предыдущих. Существуют в основном две основные парадигмы: расширение на основе сегментов и потоковое шумоподавление. Первая напрямую объединяет предыдущие чистые кадры в качестве условия, страдая от задержек при шумоподавлении и накоплении ошибок. Вторая поддерживает последовательность шумоподавления с монотонно возрастающими уровнями шума. На каждой итерации шумоподавления производится один чистый кадр, одновременно добавляя новый чистый шум, что позволяет осуществлять выборку в реальном времени. Однако этот метод сталкивается с проблемами хрупкой согласованности и слабой динамики движения. В данной статье мы предлагаем адаптивные начальные токены видео (ada-BOV) для авторегрессивных VDM. Токены BOV являются специализир

Полный текст статьи пока не загружен.

Читать оригинал статьи