ЧЕТКОСТЬ: Контекстуальная лингвистическая адаптация и восстановление акцента для устранения двойного смещения при генерации речи по тексту
Краткое содержание
arXiv:2511.11104v1 Тип объявления: кросс Аннотация: Исследования синтеза речи по тексту с использованием инструкций достигли уровня зрелости, позволяющего получать высококачественную речь по запросу, однако сохраняются два взаимосвязанных предубеждения: акцентное смещение, когда модели используют доминирующие фонетические паттерны, и лингвистическое смещение, при котором игнорируются диалектно специфичные лексические и культурные признаки. Эти смещения взаимозависимы, поскольку аутентичная генерация акцента требует как точности воспроизведения акцента, так и локализированного текста. Мы представляем фреймворк Contextual Linguistic Adaptation and Retrieval for Inclusive TTS sYnthesis (CLARITY), независимый от базовой архитектуры, который решает эти проблемы через оптимизацию двойного сигнала: (i) контекстную адаптацию естественного языка, локализующую входной текст до целевого диалекта, и (ii) дополненный поиском акцентный подсказчик (RAAP), обеспечивающий соответствующие акценту голосовые образцы. По двенадцати английским акцентам CLARITY улучшает точность и справедливость передачи акцентов, поддерживая высокое качество восприятия.
Полный текст статьи пока не загружен.