← Вернуться к списку

Прямая визуальная привязка путем направления внимания визуальных токенов

Краткое содержание

arXiv:2511.12738v1 Тип объявления: новый Аннотация: Модели видения и языка (VLM) объединяют визуальные токены и текстовые токены. Загадочная проблема заключается в том, что визуальные токены, наиболее релевантные запросу, практически не получают внимания от выходных токенов в финальных слоях языковой модели VLM, где все токены обрабатываются одинаково, включая визуальные и лингвистические токены в слоях внимания языковой модели. Этот факт может приводить к неправильным ответам на визуальные запросы, что подтверждают наши экспериментальные результаты. Похоже, стандартная функция потерь следующего токена (NTP) недостаточно эффективно направляет внимание на визуальные токены. Мы предполагаем, что более прямое управление вниманием визуальных токенов к соответствующим языковым токенам в модуле языковой модели VLM приведет к улучшению производительности на визуальных задачах. Чтобы подтвердить справедливость данного предположения, мы предлагаем новую функцию потерь, непосредственно контролирующую внимание визуальных токенов. Она прямо связывает выходной языковой токен

Полный текст статьи пока не загружен.