Улучшение поиска визуальных документов на основе внимания, привязанного к контексту

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13415v1 Тип объявления: кросс Аннотация: Поиск визуальных документов требует понимания разнородного и мультимодального содержимого для удовлетворения информационных потребностей. Последние достижения используют кодирование документов на основе скриншотов с детализированным поздним взаимодействием, значительно улучшая производительность поиска. Однако системы поиска до сих пор обучаются с использованием грубых глобальных меток релевантности, не раскрывая, какие именно области поддерживают соответствие запросу. В результате такие системы склонны полагаться на поверхностные признаки и испытывают трудности с выявлением скрытых семантических связей, что ограничивает их способность обрабатывать запросы, не сводящиеся к извлечению фрагментов текста. Для решения этой проблемы мы предлагаем фреймворк **A**ttention-**G**rounded **R**etriever **E**nhancement (**AGREE**). AGREE использует внимание между модальностями от больших мультимодальных языковых моделей в качестве локальной косвенной супервизии для направленного выявления соответствующих областей документа. Во время обучения AGREE объединяет локальные сигналы с глобальными сигналами для совместной оптимизации процесса извлечения.

Полный текст статьи пока не загружен.

Читать оригинал статьи