Неявное знание визуального вопросно-ответного анализа с использованием структурированных трасс рассуждений
Краткое содержание
arXiv:2510.06638v2 Тип анонса: замена Аннотация: Задачи визуального вопросно-ответного анализа на основе знаний (KVQA) требуют от моделей привязки сущностей к изображениям и рассуждений над фактическими знаниями. В недавних исследованиях была представлена её разновидность — KVQA с использованием неявных знаний (IK-KVQA), где мультимодальная большая языковая модель (MLLM) является единственным источником знаний, а ответы генерируются без внешнего поиска. Тем не менее существующие подходы к IK-KVQA обычно обучаются лишь с помощью супервизии исключительно по ответам: рассуждения остаются неявными, обоснования часто слабыми или непоследовательными, а обобщение после стандартного дообучения с учителем (SFT) может оказаться хрупким. Мы предлагаем **MODELNAME** — фреймворк, оснащающий IK-KVQA двойственными структурированными трассами рассуждений (символьные пути отношений одновременно по тексту и зрению вместе с естественно-языковыми объяснениями, основанными на путях), чтобы обеспечить более сильный индуктивный сдвиг по сравнению с обычной супервизией только по ответам. Эти трассы действуют как ориентированные на модальность строительные леса, направляя модель к релевантным сущностям и атрибутам...
Полный текст статьи пока не загружен.