Перспективы использования обучения с подкреплением для автогрессивного редактирования изображений
Краткое содержание
arXiv:2508.01119v3 Тип объявления: замена-перекрёстная публикация Аннотация: В то время как современные методы генерации изображений уже способны создавать высококачественные изображения, соответствующие запросам из нескольких предложений, задача редактирования изображений под руководством текста по-прежнему остаётся сложной. Даже запросы на редактирование, состоящие всего лишь из нескольких слов, часто не выполняются корректно. Мы исследуем три стратегии для повышения производительности при выполнении широкого спектра задач редактирования изображений: контролируемая дообучение (SFT), обучение с подкреплением (RL) и рассуждение методом цепочки мыслей (CoT). Для того чтобы изучить все эти компоненты в единой согласованной среде, мы используем авторегрессионную мультимодальную модель, которая обрабатывает текстовые и визуальные токены единым образом. Мы обнаружили, что комбинация обучения с подкреплением и большого мультимодального верификатора на основе больших языковых моделей является наиболее эффективной среди этих стратегий. В результате мы представляем EARL: Редактирование с использованием авторегрессии и RL — мощную модель редактирования изображений на основе RL, демонстрирующую конкурентоспособные результаты при решении разнообразных задач редактирования по сравнению со значимыми базовыми подходами.
Полный текст статьи пока не загружен.