Оценка методов токенизации субслов для бенгали: эталонное исследование с использованием BengaliBPE

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.05324v1 Тип объявления: новый Аннотация: Токенизация является важным первым этапом в конвейерах обработки естественного языка (NLP), поскольку она определяет, каким образом модели изучают и представляют лингвистическую информацию. Однако современные токенизаторы субслов, такие как SentencePiece или HuggingFace BPE, преимущественно разработаны для латинских или многоязычных корпусов и плохо справляются с языками, обладающими богатой морфологией, такими как бенгальский. Для устранения данного ограничения мы представляем BengaliBPE — токенизатор на основе метода байтовых пар (Byte Pair Encoding, BPE), специально разработанный для бенгальского письма. BengaliBPE применяет нормализацию Юникода, инициализацию на уровне графем и правила слияния, учитывающие морфологию, чтобы сохранить лингвистическую согласованность и целостность субслова. Мы используем крупномасштабный датасет классификации новостей на бенгали для сравнения эффективности BengaliBPE с тремя базовыми методами: разбиение по пробелу (Whitespace), SentencePiece BPE и HuggingFace BPE. Оценка включает уровень детализации токенов, скорость кодирования и точность последующей классификации. Хотя все методы...

Полный текст статьи пока не загружен.

Читать оригинал статьи