← Вернуться к списку

LeMiCa: Лексикографический минимаксный кэш путей для эффективного диффузионного видеогенерации

Краткое содержание

arXiv:2511.00090v2 Тип объявления: замена Аннотация: Мы представляем LeMiCa — метод ускорения генерации видеопоследовательностей на основе диффузионных моделей, который не требует дополнительного обучения и обладает высокой эффективностью. В существующих стратегиях кеширования основное внимание уделяется снижению локальных эвристических ошибок, однако часто упускается накопление глобальных ошибок, что приводит к заметному ухудшению качества содержимого между ускоренными и исходными видеороликами. Для решения этой проблемы мы формулируем планирование кеша как направленный граф с взвешенными ошибкой рёбрами и предлагаем стратегию оптимизации пути лексикографического минимакса, которая явно ограничивает ошибку худшего случая вдоль пути. Такой подход существенно улучшает согласованность глобального содержания и стиля во всех генерируемых кадрах. Обширные эксперименты на нескольких эталонных наборах данных для преобразования текста в видео показывают, что LeMiCa обеспечивает двойное улучшение как скорости вывода, так и качества генерации. Примечательно, что наш метод позволяет ускорить работу модели Latte в 2,9 раза и достигает показателя LPIPS равного 0,05 на наборе данных Open-Sora, превосходя предыдущие подходы.

Полный текст статьи пока не загружен.