← Вернуться к списку

PerTouch: Агент, управляемый визуальным языком (VLM), для персонализированной семантической ретуши изображений

Краткое содержание

arXiv:2511.12998v1 Тип объявления: новый Аннотация: Ретушь изображений направлена на повышение визуального качества с учетом индивидуальных эстетических предпочтений пользователей. Для решения проблемы баланса между управляемостью и субъективностью мы предлагаем унифицированную диффузионную архитектуру для ретуши изображений под названием PerTouch. Наш метод поддерживает семантический уровень обработки изображений, одновременно поддерживая глобальную эстетику. Используя карты параметров, содержащие значения атрибутов в конкретных семантических областях в качестве входных данных, PerTouch формирует явное отображение параметра-изображения для тонкой настройки ретуши изображений. Чтобы улучшить восприятие границ семантики, мы вводим механизмы замены семантического содержимого и возмущения параметров в процессе обучения. Для связи инструкций естественного языка с визуальным контролем мы разработали агент, управляемый моделью видо-языкового взаимодействия (VLM), способный обрабатывать как сильные, так и слабые инструкции от пользователя. Оснащенный механизмами переосмысления на основе обратной связи и памятью, учитывающей сцену, PerTouch лучше соответствует намерениям пользователя и фиксирует

Полный текст статьи пока не загружен.