OAD-Promoter: Улучшение Zero-shot VQA с использованием больших языковых моделей с описанием атрибутов объектов
Краткое содержание
arXiv:2511.12131v1 Тип: новый Аннотация: Большие языковые модели (LLM) стали ключевым инструментом в задаче визуального ответа на вопросы (VQA) для обработки требующих знаний вопросов в сценариях с малым количеством примеров (few-shot) или без них (zero-shot). Однако их зависимость от массивных наборов обучающих данных часто приводит к тому, что они наследуют языковые смещения в процессе приобретения знаний. Это ограничение накладывает два ключевых ограничения на существующие методы: (1) прогнозы LLM становятся менее надежными из-за эксплуатации смещений и (2) несмотря на мощные способности к логическому выводу знаний, LLM по-прежнему испытывают трудности с обобщением на данных, выходящих за пределы распределения (out-of-distribution, OOD). Для решения этих проблем мы предлагаем Object Attribute Description Promoter (OAD-Promoter) — новый подход для улучшения VQA на основе LLM, который смягчает языковое смещение и повышает устойчивость к доменному сдвигу. OAD-Promoter состоит из трех компонентов: модуль генерации примеров, сконцентрированных на объектах (Object-concentrated Example Generation, OEG), модуль помощи памяти знаний (Memory Knowledge Assistance, MKA) и OAD-промпт. Модуль OEG генерирует
Полный текст статьи пока не загружен.