DocSLM: Малая визуальная языковая модель для понимания длинных мультимодальных документов
Краткое содержание
arXiv:2511.11313v1 Тип объявления: новый Аннотация: Большие мультимодальные модели видения и языка (LVLM) продемонстрировали сильные возможности обработки многостраничных и сложных документов. Однако высокая ресурсоемкость делает их непрактичными для развертывания на устройствах с ограниченными вычислительными ресурсами. Мы представляем DocSLM — эффективную малую мультимодальную модель зрения и языка, предназначенную для понимания длинных документов при ограниченных ресурсах памяти. DocSLM включает иерархический мультимодальный компрессор, который совместно кодирует визуальную, текстовую и макетную информацию каждой страницы в последовательность фиксированной длины, значительно снижая потребление памяти, одновременно сохраняя локальную и глобальную семантику. Для обеспечения масштабируемости обработки произвольной длины входных данных мы предлагаем механизм потокового воздержания, работающий последовательно над сегментами документа и отфильтровывающий низкоуверенные ответы с помощью калибратора неопределенности на основе энтропии. По нескольким эталонным наборам данных для длинных мультимодальных документов DocSLM соответствует или превосходит современные решения.
Полный текст статьи пока не загружен.