MAVIS: Эталон для мультимодальной атрибуции источников в расширенном визуальном ответе на вопросы

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12142v1 Тип объявления: новый Аннотация: Атрибуция источников направлена на повышение надежности ответов, сгенерированных ИИ, за счет включения ссылок для каждого утверждения, что помогает пользователям проверять предоставленные ответы. Однако существующие работы в основном были сосредоточены на сценариях только с текстом и в значительной степени упускали из виду роль мультимодальности. Мы представляем MAVIS, первый эталонный тест, предназначенный для оценки систем мультимодальной атрибуции источников, которые понимают намерение пользователя, стоящее за визуальными вопросами, извлекают мультимодальные свидетельства и генерируют развернутые ответы с цитированием. Наш набор данных включает 157 тысяч визуальных вопросно-ответных примеров, где каждый ответ аннотирован цитатами на уровне фактов, ссылающимися на мультимодальные документы. Мы разрабатываем детальные автоматические метрики по трем направлениям: информативность, обоснованность и беглость, и демонстрируем их сильную корреляцию с оценками людей. Наши ключевые выводы тройственны: (1) LVLM с мультимодальным RAG генерируют более информативные и беглые ответы, чем унимодальный RAG,

Полный текст статьи пока не загружен.

Читать оригинал статьи