← Вернуться к списку

За пределами оператора SELECT: Всесторонняя таксономически ориентированная тестовая среда для перевода естественного текста в SQL-запросы в реальных условиях

Краткое содержание

arXiv:2511.13590v1 Тип объявления: новый Аннотация: Наборы данных типа «текст-в-SQL» необходимы для обучения и оценки моделей преобразования текста в SQL-запросы, однако существующие наборы часто страдают от ограниченного охвата и неспособности отражать разнообразие реальных приложений. Для решения этой проблемы мы предлагаем новую таксономию классификации преобразований «текст-в-SQL», основанную на измерениях, включающих основные намерения, типы операторов, синтаксические структуры и ключевые действия. Используя эту таксономию, мы оцениваем широко используемые общедоступные наборы данных («текст-в-SQL»), такие как Spider и Bird, выявляя ограничения в их охвате и разнообразии. Затем мы представляем конвейер синтеза наборов данных, управляемый таксономией, который позволяет получить новый набор данных под названием SQL-Synth. Этот подход объединяет таксономию с большими языковыми моделями (LLM), обеспечивая отражение набора данных широты и сложности реальных приложений «текст-в-SQL». Подробный анализ и экспериментальные результаты подтверждают эффективность предложенной нами таксономии, поскольку SQL-Synth демонстрирует большее разнообразие и полноту покрытия по сравнению с...

Полный текст статьи пока не загружен.