Визуальные структуры способствуют визуальному рассуждению: решение проблемы связывания в мультимодальных моделях видения и языка

2025-11-11 05:00:00

Краткое содержание

arXiv:2506.22146v4 Тип объявления: замена-перекрёстная Аннотация: Несмотря на прогресс в области больших моделей видения и языка (Large Vision-Language Models — LVLM), их способность к визуальному рассуждению часто ограничена проблемой связывания: неспособностью надёжно ассоциировать перцептивные признаки с правильными визуальными объектами. Это ограничение лежит в основе устойчивых ошибок в таких задачах, как подсчёт объектов, визуальный поиск, описание сцены и понимание пространственных отношений. Ключевым фактором является то, что современные модели LVLM обрабатывают визуальные признаки преимущественно параллельно, лишённые механизмов последовательного внимания, привязанного к пространству. В данной работе предлагается метод Visual Input Structure for Enhanced Reasoning (VISER) — простой и эффективный подход, который дополняет визуальные входные данные низкоуровневыми пространственными структурами и объединяет их с текстовым подсказчиком, стимулирующим последовательный разбор с учётом пространства. Мы эмпирически демонстрируем значительное повышение производительности во всех основных задачах визуального рассуждения, используя лишь однократное обращение к модели вывода. Конкретнее, VISER улучшает показатели GPT-4о...

Полный текст статьи пока не загружен.

Читать оригинал статьи