FaSDiff: Балансировка восприятия и семантики в сжатии лиц посредством априорных знаний стабильной диффузии
Краткое содержание
arXiv:2505.05870v2 Тип объявления: замена-перекрёстная публикация Аннотация: С ростом масштабов внедрения данных изображений лиц во множестве приложений остро встала необходимость эффективного сжатия, учитывающего семантику лица, для целей хранения и передачи. Хотя современные методы сжатия изображений лиц на основе машинного обучения уже продемонстрировали многообещающие результаты, качество реконструкции часто ухудшается при низких битрейтах. Прямое применение диффузионных генераторов априорных знаний к этой задаче приводит к снижению производительности последующих задач компьютерного зрения главным образом вследствие плохой сохранности высокочастотных деталей. В данной работе мы предлагаем метод FaSDiff (сжатие изображений лиц с использованием стабильной диффузии — **Fa**cial Image Compression with a **S**table **D**iffusion Prior), новую диффузионную архитектуру сжатия, предназначенную для повышения как визуальной точности, так и семантической согласованности. FaSDiff включает компрессор, чувствительный к высоким частотам, который позволяет захватывать мелкие детали и создавать надёжные визуальные подсказки для управления процессом диффузии...
Полный текст статьи пока не загружен.