CLIP — всё, что нужно для человекоподобных семантических представлений в стабильной диффузии
Краткое содержание
arXiv:2511.08075v1 Тип объявления: кросс Аннотация: Латентные диффузионные модели, такие как Stable Diffusion, демонстрируют передовые результаты в задаче генерации изображений по текстовому описанию. Однако степень семантического понимания этими моделями генерируемых ими изображений изучена недостаточно хорошо. В данной работе мы исследуем вопрос, содержат ли внутренние представления, используемые такими моделями во время генерации изображений по тексту, семантически значимую для человека информацию. Для этого мы проводим тестирование (probing) модели Stable Diffusion с помощью простых регрессионных слоёв, предсказывающих семантические атрибуты объектов, и оцениваем эти прогнозы относительно аннотаций, сделанных людьми. Неожиданно обнаруживается, что успех данного подхода фактически обусловлен кодировкой текста, выполняемой моделью CLIP, а не самим процессом обратной диффузии. Мы показываем, что группы конкретных семантических атрибутов имеют существенно различающуюся точность декодирования по сравнению со средней точностью, следовательно, представлены в разной степени. Наконец, мы демонстрируем, что атрибуты
Полный текст статьи пока не загружен.