Отслеживание и устранение иллюзий (галлюцинаций) в мультимодальных больших языковых моделях посредством динамической локализации внимания
Краткое содержание
arXiv:2509.07864v2 Тип объявления: замена Аннотация: Многомодальные большие языковые модели (Multimodal Large Language Models — MLLM) демонстрируют высокую производительность в задачах вроде аннотирования изображений и визуального вопросно-ответного анализа, однако остаются подвержены эффекту галлюцинаций, когда генерируемый текст противоречит визуальному вводу. Предыдущие исследования связывают эту проблему частично с недостаточным вниманием к визуальным данным, но существующие методы детектирования и смягчения ошибок, основанные на внимании, обычно применяют одинаковые корректировки ко всем слоям и головам внимания, затрудняя выявление источников ошибок. В данной работе мы сначала показываем, что эти подходы неспособны точно локализовать проблемные слои. Затем мы предлагаем два диагностических метода: энтропия визуального внимания слоев (Layer Image Attention Entropy — LIAE), выявляющая аномалии в слоях, и фокусировка визуального внимания (Image Attention Focus — IAF), оценивающая внимание отдельных голов внутри указанных слоёв. Анализ показывает, что LIAE эффективно идентифицирует дефектные слои, а IAF надёжно ранжирует головы, нуждающиеся в коррекции. Руководствуясь этими сигналами, мы предлагаем метод динамической слой-зависимой энтропии и объединения внимания (Dynamic Layer-wise Entropy and Attention Fusion — D-LEAF), который является универсальным, независимым от конкретной задачи и управляемым механизмом внимания.
Полный текст статьи пока не загружен.