Исследование извлечения данных из нескольких таблиц с помощью итеративного поиска

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13418v1 Тип анонса: cross Аннотация: Ответы на вопросы в открытой предметной области по дата-лейкам требуют извлечения и объединения информации из нескольких таблиц — сложная подзадача, которая требует как семантической релевантности, так и структурной целостности (например, соединяемости). В то время как точные методы оптимизации, такие как смешанное целочисленное программирование (MIP), могут гарантировать целостность, их вычислительная сложность часто оказывается непомерно высокой. С другой стороны, более простые жадные эвристики, которые оптимизируют только на покрытие запроса, часто не находят такие целостные, соединяемые наборы. В данной статье извлечение данных из нескольких таблиц формулируется как итеративный процесс поиска, и утверждается, что такой подход обладает преимуществами в масштабируемости, интерпретируемости и гибкости. Мы предлагаем общий фреймворк и его конкретную реализацию: быстрый и эффективный жадный алгоритм извлечения с учётом соединений, который комплексно балансирует релевантность, покрытие и соединяемость. Эксперименты на 5 наборах данных NL2SQL демонстрируют, что наш итеративный метод достигает конкурентоспособной производительности извлечения.

Полный текст статьи пока не загружен.

Читать оригинал статьи