CountSteer: Управление вниманием для подсчета объектов в диффузионных моделях
Краткое содержание
arXiv:2511.11253v1 Тип объявления: новый Аннотация: Модели диффузии текста в изображение генерируют реалистичные и согласованные изображения, однако часто неспособны следовать числовым инструкциям в тексте, выявляя разрыв между языком и визуальным представлением. Интересно отметить, что эти модели вовсе не слепы к числам — они имплицитно осознают собственную точность подсчёта, поскольку внутренние сигналы моделей сдвигаются предсказуемым образом в зависимости от того, соответствует ли результат заданному количеству объектов. Это наблюдение свидетельствует о том, что модель уже закодировала латентное представление числовой корректности, которое можно использовать для более точного управления процессом генерации. Основываясь на этой интуиции, мы предлагаем метод CountSteer, который улучшает генерацию изображений с указанным количеством объектов путём коррекции скрытых состояний кросс-внимания модели во время вывода. В наших экспериментах CountSteer повысил точность количества объектов примерно на 4%, не ухудшая качество изображения, демонстрируя простой, но эффективный подход к улучшению точности генерации.
Полный текст статьи пока не загружен.