Насколько далеко модели речи SSL учитывают тон? Временная фокусировка представления тона в условиях переноса с ограниченными ресурсами
Краткое содержание
arXiv:2511.12285v1 Тип объявления: кросс Аннотация: Лексический тон является центральным аспектом многих языков, однако остается недостаточно изученным в моделях автоматического обучения речи (SSL), особенно вне китайского языка мандаринского диалекта. Мы исследуем четыре языка с сложными и разнообразными системами тонов — бирманский, тайский, лаосский и вьетнамский — чтобы выяснить, насколько такие модели воспринимают тон и как происходит перенос знаний в условиях ограниченных ресурсов. В качестве базовой точки отсчета мы оцениваем временную протяженность сигналов тона примерно в 100 мс для бирманского и тайского языков и около 180 мс для лаосского и вьетнамского языков. Анализ зондирования и градиентов моделей SSL после тонкой настройки показывает, что перенос тона варьируется в зависимости от конкретной задачи: настройка автоматической системы распознавания речи согласует временные интервалы с языкоспецифичными сигналами тона, тогда как задачи, связанные с просодией и голосом, смещают модель в сторону чрезмерно длительных интервалов. Эти результаты показывают, что перенос тона определяется задачей нижнего уровня, подчеркивая влияние конкретных задач на временное внимание при моделировании тона.
Полный текст статьи пока не загружен.