Сомнительная стабильность визуальных систем вопросно-ответных моделей
Краткое содержание
arXiv:2511.11206v1 Тип объявления: кросс Аннотация: Модели визуального языка (VLM) добились значительных успехов, однако надежность их работы при небольших изменениях входных данных, сохраняющих смысл, изучена недостаточно хорошо. Мы представляем первое крупное систематическое исследование устойчивости моделей визуального языка к безвредным визуальным и текстовым возмущениям: сдвигам пикселей, легким геометрическим преобразованиям, масштабированию с добавлением рамок, переформулировкам и многоязычным переписываниям, которые не меняют семантику пары изображение-вопрос. Анализируя широкий набор моделей и датасетов, мы обнаружили, что современные модели визуального языка весьма чувствительны даже к таким незначительным изменениям: значительная доля образцов меняет предсказанный ответ хотя бы после одного визуального или текстового изменения. Мы исследуем, как эта нестабильность варьируется в зависимости от типа возмущений, категорий вопросов и самих моделей, показывая, что даже передовые системы (например, GPT-4o, Gemini 2.0 Flash) часто терпят неудачу при смещениях всего лишь на несколько пикселей или безобидных перефразировках.
Полный текст статьи пока не загружен.