Самокорректирующаяся дистилляция для вопросов и ответов на структурированных данных
Краткое содержание
arXiv:2511.07998v1 Тип объявления: кросс Аннотация: Структурированная обработка вопросов и ответов (Structured Data Question Answering — SDQA), включающая обработку таблиц, графов знаний (Knowledge Graph — KG) и временных графов знаний (Temporal Knowledge Graph — TKG), является ключевой областью исследований. Достижения в области больших языковых моделей (Large Language Models — LLM) способствовали значительному прогрессу в унифицированных структурах обработки запросов, таких как TrustUQA. Однако эти подходы сталкиваются с проблемами при применении к малым языкам-моделям, поскольку последние склонны допускать ошибки при формировании структурированных запросов. Для повышения способности малых языковых моделей обрабатывать структурированные данные мы предлагаем метод самоисправляющейся дистилляции (Self-Correction Distillation — SCD). В рамках метода SCD разработан механизм подсказок ошибок (Error Prompt Mechanism — EPM), который позволяет выявлять ошибки и формировать индивидуальные сообщения об ошибках во время вывода, а также двухэтапная стратегия дистилляции, предназначенная для переноса способностей крупных языковых моделей к генерации запросов и исправлению ошибок на малую языковую модель. Эксперименты на пяти эталонных наборах данных с тремя типами структурированных данных показывают, что предложенный нами подход SCD демонстрирует наилучшую производительность и превосходную обобщаемость.
Полный текст статьи пока не загружен.