Насколько далеко модели речи SSL учитывают тон? Временная фокусировка представления тона в условиях переноса с ограниченными ресурсами

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12285v1 Тип объявления: кросс Аннотация: Лексический тон является центральным аспектом многих языков, однако остается недостаточно изученным в моделях автоматического обучения речи (SSL), особенно вне китайского языка мандаринского диалекта. Мы исследуем четыре языка с сложными и разнообразными системами тонов — бирманский, тайский, лаосский и вьетнамский — чтобы выяснить, насколько такие модели воспринимают тон и как происходит перенос знаний в условиях ограниченных ресурсов. В качестве базовой точки отсчета мы оцениваем временную протяженность сигналов тона примерно в 100 мс для бирманского и тайского языков и около 180 мс для лаосского и вьетнамского языков. Анализ зондирования и градиентов моделей SSL после тонкой настройки показывает, что перенос тона варьируется в зависимости от конкретной задачи: настройка автоматической системы распознавания речи согласует временные интервалы с языкоспецифичными сигналами тона, тогда как задачи, связанные с просодией и голосом, смещают модель в сторону чрезмерно длительных интервалов. Эти результаты показывают, что перенос тона определяется задачей нижнего уровня, подчеркивая влияние конкретных задач на временное внимание при моделировании тона.

Полный текст статьи пока не загружен.

Читать оригинал статьи