Перевод через аннотацию: вычислительное исследование перевода классического китайского языка на японский
Краткое содержание
arXiv:2511.05239v1 Тип объявления: новый Аннотация: Древние переводили классический китайский язык на японский, делая аннотации вокруг каждого символа. Мы абстрагируем этот процесс как задачи последовательной разметки (sequence tagging), интегрируя их в современные технологии обработки естественного языка. Исследование данной системы аннотирования и перевода сталкивается с проблемой ограниченных ресурсов. Для решения этой проблемы мы предлагаем конвейер аннотирования на основе больших языковых моделей (LLM) и создаем новый датасет из открытых цифровых переводов. Показано, что в условиях ограниченности ресурсов введение вспомогательных задач китайского NLP положительно влияет на обучение задач последовательной разметки. Оценивается также производительность крупных языковых моделей. Они показывают высокие результаты при прямом машинном переводе, однако испытывают затруднения при выполнении аннотаций символов. Наш подход может служить дополнением к большим языковым моделям.
Полный текст статьи пока не загружен.