TabRAG: Поиск табличных документов посредством структурированных языковых представлений
Краткое содержание
arXiv:2511.06582v1 Тип объявления: кросс Аннотация: Загрузка данных для модели порождения текста с поддержкой поиска (RAG — Retrieval-Augmented Generation) включает либо тонкую настройку встраиваемой модели непосредственно на целевом корпусе, либо разбор документов для кодирования моделью встраивания. Первый подход, хотя и точный, требует значительных вычислительных ресурсов, тогда как второй страдает от недостаточной производительности при извлечении табличных данных. В данной работе мы предлагаем решение второго подхода, представляя TabRAG — основанный на парсинге конвейер RAG, предназначенный для обработки документов с большим количеством таблиц посредством структурированных языковых представлений. ТабRAG превосходит существующие популярные методы, основанные на парсинге, как по качеству генерации, так и по эффективности поиска. Код доступен по адресу: https://github.com/jacobyhsi/TabRAG.
Полный текст статьи пока не загружен.