FIA-Edit: Частотно-взаимодействующее Внимание для Эффективного и Высококачественного Редактирования Изображений по Тексту без Инверсии
Краткое содержание
arXiv:2511.12151v1 Тип: новая статья Аннотация: Текстовое редактирование изображений быстро развивается с появлением диффузионных моделей. Хотя безинверсионные методы на основе потоков обеспечивают высокую эффективность за счет отсутствия инверсии латентного пространства, они часто не могут эффективно интегрировать исходную информацию, что приводит к слабому сохранению фона, пространственным несоответствиям и чрезмерному редактированию из-за недостаточной интеграции исходных данных. В этой статье мы представляем FIA-Edit — новую безинверсионную архитектуру, которая обеспечивает высокоточное и семантически точное редактирование с помощью механизма Frequency-Interactive Attention. В частности, мы разработали два ключевых компонента: (1) модуль взаимодействия частотных представлений, который улучшает междоменное выравнивание за счет обмена частотными компонентами между исходными и целевыми признаками внутри self-attention, и (2) модуль инжекции признаков, который явным образом incorporates исходные запросы, ключи, значения и текстовые эмбеддинги в cross-attention целевой ветви.
Полный текст статьи пока не загружен.