Автоэнкодер трансформера компьютерного зрения с денойзингом и спектральной саморегуляцией
Краткое содержание
arXiv:2511.12633v1 Тип объявления: новый Аннотация: Вариационные автокодировщики (VAE) традиционно кодируют изображения в компактное латентное пространство, снижая вычислительные затраты, однако порождая оптимизационную дилемму: увеличение размерности латентного пространства улучшает точность реконструкции, но часто ухудшает производительность генерации. Современные подходы пытаются решить эту проблему путём регуляризации многомерных латентных пространств с помощью внешних моделей компьютерного зрения (VFM). Тем не менее остаётся неясным, каким образом высокоразмерные латенты VAЕ влияют на оптимизацию генеративных моделей. Насколько нам известно, наш анализ впервые показывает, что избыточные высокочастотные компоненты в многомерных латентных пространствах препятствуют сходимости тренировочного процесса диффузионных моделей и, следовательно, ухудшают качество генерации. Для устранения этой проблемы мы предлагаем стратегию спектральной саморегуляризации, подавляющую избыточный высокочастотный шум одновременно с сохранением качества реконструкции. Полученный результат — Denoising-VAE, основанный на архитектуре Vision Transformer (ViT)
Полный текст статьи пока не загружен.