Цифровизация письменного наследия Непала: Комплексный конвейер HTR для старых непальских манускриптов
Краткое содержание
arXiv:2512.17111v1 Announce Type: new Abstract: В данной статье представлен первый конвейерный подход (end-to-end pipeline) для распознавания рукописного текста (HTR) старонепальского языка — исторически значимого, но мало ресурсного языка. Мы используем подход транскрипции на уровне строк и систематически исследуем архитектуры кодер-декодер и методы работы с данными (data-centric techniques) для повышения точности распознавания. Наши лучшая модель достигает уровня ошибок на символы (CER) в 4.9%. В дополнение мы реализуем и оцениваем стратегии декодирования и анализируем токен-уровневые ошибки (token-level confusions), чтобы лучше понять поведение модели и характер ошибок. Хотя набор данных, использованный для оценки, является конфиденциальным, мы публикуем наш код обучения, конфигурации моделей и скрипты оценки для поддержки дальнейших исследований в области HTR для исторических письменностей с ограниченными ресурсами.
Полный текст статьи пока не загружен.