Сегментация за пределами стандартных настроек: асимметричное байт-парное кодирование для оптимальной производительности машинного перевода

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.03383v2 Тип объявления: замена Аннотация: Современные исследования в области машинного перевода часто предлагают единый фиксированный набор гиперпараметров для моделей сегментации слов, симметричное байтовое парное кодирование (BPE), которое применяет одинаковое количество операций слияния (NMO) при обучении токенизаторов как для исходных, так и целевых языков. Однако мы показываем, что такой унифицированный подход не гарантирует оптимальной производительности машинного перевода на различных языковых парах и объемах данных. В данной работе исследуются рецепты сегментирования с помощью BPE на разных объемах данных и языковых парах для оценки производительности систем машинного перевода. Мы обнаружили, что использование асимметричного BPE, где исходный и целевой языки имеют разные значения NMO, значительно улучшает результаты по сравнению с симметричным подходом, особенно в условиях ограниченных ресурсов (50К, 100К и 500К предложений). Конкретно, асимметричный BPE дает статистически значимые (p < 0.05) средние приросты 5.32, 4.46 и 0.7 CHRF++ для английского-хинди в условиях ограниченных ресурсов (50К, 100К,

Полный текст статьи пока не загружен.

Читать оригинал статьи