MorphTok: Морфологически обоснованная токенизация для индийских языков

2025-11-10 05:00:00

Краткое содержание

arXiv:2504.10335v2 Тип объявления: замена Аннотация: Токенизация является критически важным этапом обработки естественного языка, особенно с появлением больших языковых моделей (LLM), влияющим на производительность последующих этапов, вычислительные затраты и эффективность. Современные LLM используют классический алгоритм байтово-парной кодировки (BPE) для субсловной токенизации, который жадно объединяет частые биграммы символов, часто приводя к сегментации, не соответствующей лингвистически значимым единицам. Для решения этой проблемы мы предлагаем морфологически осознанную сегментацию как этап предтокенизации перед применением алгоритма BPE. Чтобы облегчить морфологическую сегментацию, мы создаем новый датасет для хинди и маратхи, включающий разделение санскритских соединений (сандхи), чтобы улучшить субсловную токенизацию. Эксперименты на последующих задачах показывают, что основанная на морфологии токенизация улучшает качество машинного перевода и языковой модели. Дополнительно, для работы с зависимыми гласными, характерными для слоговых письменных систем индийских языков, мы предлагаем ограниченный вариант B

Полный текст статьи пока не загружен.

Читать оригинал статьи