Позиционная предвзятость в мультимодальных моделях встраивания: отдают ли они предпочтение началу, середине или концу?
Краткое содержание
arXiv:2511.11216v1 Тип объявления: новый Аннотация: Позиционное смещение — явление, когда модели чрезмерно акцентируют внимание на определённых позициях независимо от содержания, было показано негативно сказываться на производительности моделей в различных задачах. Хотя недавние исследования подробно изучили позиционные смещения в моделях генерации текста, их наличие и влияние в моделях представления остаются недостаточно исследованными. Ещё меньше известно о таких смещениях в мультимодальных моделях. В данной работе мы исследуем позиционную предвзятость в мультимодальных моделях представлений, конкретно в контексте поиска изображений по тексту. Мы начинаем с различения между важностью контекста и позиционным смещением, после чего оцениваем присутствие и степень такого смещения в разных моделях и наборах данных. Наши эксперименты показывают, что позиционная предвзятость широко распространена в мультимодальных моделях, однако проявляется по-разному в зависимости от модальности: текстовые энкодеры склонны демонстрировать смещение к началу входных данных, тогда как визуальные энкодеры проявляют смещение как в начале, так и в конце.
Полный текст статьи пока не загружен.