Рекуррентная авторегрессивная диффузия: глобальная память встречается с локальным вниманием

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12940v1 Тип объявления: новый Аннотация: Последние достижения в области видеогенерации продемонстрировали потенциал использования моделей диффузии видео в качестве мировых моделей, обеспечивающих авторегрессивную генерацию бесконечно длинных видеороликов посредством маскированного условного задания. Однако такие модели, обычно использующие локальное полное внимание, испытывают недостаток эффективного сжатия памяти и её извлечения для долгосрочной генерации сверх размера окна, что приводит к проблемам забывания и пространственно-временной несогласованности. Для улучшения удержания исторической информации в рамках фиксированного бюджета памяти мы вводим рекуррентную нейронную сеть (RNN) в структуру трансформера-диффузора. В частности, диффузионная модель, включающая LSTM с вниманием, демонстрирует сопоставимую производительность с современными блоками RNN, такими как TTT и Mamba2. Более того, существующие подходы на основе диффузии-RNN часто страдают от ухудшения производительности вследствие разрыва между тренировкой и выводом или отсутствия перекрытия окон. Чтобы устранить эти ограничения, мы предлагаем...

Полный текст статьи пока не загружен.

Читать оригинал статьи