Генерация эталонных данных для многоязычного исторического анализа естественного языка с использованием больших языковых моделей (LLM)

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14688v1 Тип объявления: кросс Аннотация: Историческая и малоресурсная обработка естественного языка по-прежнему представляет собой сложную задачу из-за ограниченного количества размеченных данных и несоответствия областей применения современным корпусам, полученным из веба. В данной статье мы описываем нашу работу по использованию больших языковых моделей (LLM) для создания аннотаций с эталонной разметкой исторических текстов на французском языке (XVI–XX века) и китайском языке (1900–1950 гг.). Используя эталонную разметку, созданную с помощью LLM на подмножестве нашего корпуса, нам удалось дообучить модель spaCy, что позволило добиться значительных улучшений в периодических тестах для задач аннотирования частей речи (POS), лемматизации и распознавания именованных сущностей (NER). Наши результаты подчеркивают важность предметно-ориентированных моделей и демонстрируют, что даже относительно небольшие объемы синтетических данных могут улучшить инструменты обработки естественного языка для недостаточно обеспеченных ресурсами корпусов в исследованиях вычислительной гуманитаристики.

Полный текст статьи пока не загружен.

Читать оригинал статьи