← Вернуться к списку

Vashantor: Крупный многоязычный эталонный набор данных для автоматического перевода бенгальских региональных диалектов на бенгальский язык

Краткое содержание

arXiv:2311.11142v2 Тип объявления: замена Аннотация: Вариант языка бенгали представляет собой увлекательную смесь региональных диалектов, способствующую культурному разнообразию бенгалоязычного сообщества. Несмотря на обширное изучение перевода с бенгали на английский, с английского на бенгали и с банглиша (смешанного англо-бенгали) на бенгали в прошлом, существует заметный пробел в переводе региональных диалектов бенгали на стандартный бенгали. В данном исследовании мы стремимся восполнить этот пробел путем создания коллекции из 32 500 предложений, охватывающих бенгали, банглиш и английский языки, представляющих пять региональных диалектов бенгали. Наша цель — перевести эти региональные диалекты на стандартный бенгали и точно определить регионы происхождения. Для решения задач перевода и определения региона мы предлагаем две новые модели: DialectBanglaT5 для перевода региональных диалектов на стандартный бенгали и DialectBanglaBERT для идентификации региона происхождения диалекта. Модель DialectBanglaT5 демонстрирует превосходную производительность во всех диалектах, достигая высоких результатов...

Полный текст статьи пока не загружен.