TabFlash: Эффективное понимание таблиц с прогрессивной постановкой вопросов и фокусировкой токенов
Краткое содержание
arXiv:2511.13283v1 Тип объявления: новый Аннотация: Изображения таблиц представляют уникальные трудности для эффективного и действенного понимания вследствие необходимости фокусировки на конкретных вопросах и наличия избыточных фоновых областей. Современные подходы на основе мультимодальных больших языковых моделей (Multimodal Large Language Models — MLLM) часто игнорируют эти особенности, приводя к невразумительным и избыточным визуальным представлениям. Для решения указанных проблем мы стремимся создать визуальные признаки, одновременно информативные и компактные, чтобы улучшить понимание таблиц. Мы предлагаем прогрессивную постановку вопросов, которая вводит вопрос в слои трансформера зрения с постепенно возрастающей частотой, учитывая способность каждого слоя обрабатывать дополнительную информацию, для формирования ориентированных на вопрос визуальных признаков. Чтобы уменьшить избыточность, мы представляем стратегию обрезки, исключающую токены фона, повышая таким образом эффективность. Для смягчения потерь информации от процесса обрезки дополнительно предлагается стратегия сосредоточения токенов, метод обучения, который способствует сохранению релевантной информации путем акцентирования внимания модели на значимых элементах таблицы.
Полный текст статьи пока не загружен.