MONKEY: Адаптер маскирования активации ключ-значение (KEY-Value) для персонализации
Краткое содержание
arXiv:2510.07656v2 Тип объявления: замена Аннотация: Адаптация диффузионных моделей под индивидуальные запросы позволяет пользователям создавать новые изображения, включающие заданный объект, обеспечивая больший контроль, нежели простой текстовый запрос. Однако такие модели часто страдают от проблемы, когда итоговое изображение оказывается простым воспроизведением исходной картинки объекта, игнорируя сам текст запроса. Мы заметили, что один популярный метод персонализации — IP-Adaptor — автоматически генерирует маски, сегментирующие объект от фона во время вывода. Мы предлагаем использовать эту автоматически создаваемую маску на втором проходе для маскирования визуальных токенов, ограничивая их областью объекта, а не фона, позволяя текстовому запросу влиять на остальные части изображения. Для текстовых запросов, описывающих места и локации, такой подход даёт изображения, точно отображающие объект и однозначно соответствующие тексту запроса. Наш метод сравнивается с несколькими другими методами персонализации на этапе тестирования, показывая высокую согласованность между текстом запроса и источником изображения. Дополнительно мы проводим исследование среди пользователей...
Полный текст статьи пока не загружен.