Переосмысление кэширования признаков на уровне токенов: ускорение трансформеров диффузии с помощью двойного кэширования признаков
Краткое содержание
arXiv:2412.18911v2 Тип объявления: замена-перекрёстная Аннотация: Трансформеры диффузии (DiT) стали доминирующими методами в генерации изображений и видео, но по-прежнему страдают от значительных вычислительных затрат. В качестве эффективного подхода к ускорению DiT были разработаны методы кеширования признаков, которые позволяют сохранять признаки DiT на предыдущих временных шагах и повторно использовать их на следующих шагах, что позволяет пропускать вычисления на последующих шагах. Среди них метод токен-ориентированного кеширования признаков был предложен для выполнения различных коэффициентов кеширования для разных токенов в DiT, с целью пропуска вычислений для неважных токенов при сохранении вычислений важных токенов. В данной статье мы предлагаем тщательно проверить эффективность метода токен-ориентированного кеширования признаков, задав следующие два вопроса: (1) Действительно ли необходимо вычислять так называемые «важные» токены на каждом шаге? (2) Являются ли так называемые важные токены действительно важными? Удивительно, но данная статья даёт несколько контринтуитивные ответы, демонстрируя, что
Полный текст статьи пока не загружен.