HEDGE: Оценка иллюзий через плотную геометрическую энтропию для визуальных вопросов-ответов (VQA) с использованием моделей видения и языка

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12693v1 Тип объявления: новый Аннотация: Модели видения и языка (VLM) позволяют отвечать на произвольные визуальные вопросы, однако остаются склонными к иллюзиям восприятия. Мы представляем HEDGE — унифицированную архитектуру обнаружения иллюзий, объединяющую контролируемые визуальные возмущения, семантическое кластерирование и устойчивые метрики неопределённости. HEDGE интегрирует выборку, синтез искажений, кластеризацию (основанную на импликациях и эмбеддингах) и вычисление метрик в воспроизводимый конвейер, применимый ко многим мультимодальным архитектурам. Оценки на наборах данных VQA-RAD и KvasirVQA-x1 с тремя репрезентативными моделями VLM (LLaVA-Med, Med-Gemma, Qwen2.5-VL) выявляют чётко выраженные зависимости от архитектуры и подсказок. Обнаруживаемость иллюзий максимальна для моделей с плотной визуальной токенизацией (Qwen2.5-VL) и минимальна для архитектур с ограниченной токенизацией (Med-Gemma). Кластеризация на основе эмбеддингов часто даёт лучшее разделение при применении непосредственно к генерируемым ответам, тогда как кластеризация, основанная на естественных выводах импликаций (NLI),...

Полный текст статьи пока не загружен.

Читать оригинал статьи