Исследование инвариантности моделей видения и языка, управляемое языком

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13494v1 Тип объявления: новый Аннотация: Современные модели видения и языка (VLM), такие как CLIP, OpenCLIP, EVA02-CLIP и SigLIP демонстрируют сильную производительность в режиме нулевого выстрела, однако неясна степень надежности их реакции на контролируемые лингвистические возмущения. Мы представляем методику тестирования инвариантности, управляемой языком (Language-Guided Invariance Probing — LGIP), позволяющую измерять (i) устойчивость к семантически эквивалентным переформулировкам и (ii) чувствительность к изменениям смысла путем семантического переворота в задаче сопоставления изображений и текста. Используя набор из 40 тыс. изображений MS COCO с пятью человеческими описаниями каждого изображения, мы автоматически генерируем перефразировки и основанные на правилах изменения, затрагивающие категорию объекта, цвет или количество объектов, и суммируем поведение моделей с помощью показателя ошибки инвариантности, разрыва чувствительности к смыслу и статистики положительных оценок. Среди девяти протестированных VLM-моделей EVA02-CLIP и крупные варианты OpenCLIP находятся на благоприятной границе между устойчивостью и чувствительностью, сочетая низкую вариативность, вызванную перефразировкой, с постоянно более высокими показателями соответствия исходным описаниям по сравнению с перевернутыми вариантами. В отличие от них, SigLIP

Полный текст статьи пока не загружен.

Читать оригинал статьи