← Вернуться к списку

От внимания к частоте: интеграция трансформера зрения и FFT-ReLU для улучшения восстановления четкости изображений

Краткое содержание

arXiv:2511.10806v1 Тип объявления: кросс Аннотация: Устранение размытия изображений играет ключевую роль в компьютерном зрении, поскольку направлено на восстановление четких изображений из размытых вследствие движения объектов или дрожания камеры. Несмотря на значительный прогресс методов глубокого обучения, таких как свёрточные нейронные сети (CNN) и трансформеры видимого диапазона (ViT), эти подходы часто сталкиваются с трудностями при обработке сложных случаев размытия высокого разрешения и предъявляют высокие вычислительные требования. Мы предлагаем новую архитектуру двойственного домена, объединяющую трансформеры видимого диапазона с модулем FFT-ReLU в частотной области, явным образом связывая моделирование пространственного внимания и спектральную редкость. В данной структуре ядро ViT захватывает локальные и глобальные зависимости, тогда как компонент FFT-ReLU обеспечивает разреженность в частотной области, подавляя артефакты, вызванные размытием, и сохраняя тонкие детали. Обширные эксперименты на эталонных наборах данных показывают, что предложенная архитектура демонстрирует превосходство по показателям PSNR, SSIM и воспринимаемого качества по сравнению с современными моделями. Оценки количественных метрик, качественные сравнения и оценки предпочтений человека подтверждают эффективность нашего подхода.

Полный текст статьи пока не загружен.