Я не могу поверить, что нормализация текста настолько мало обсуждается в потоковом синтезе речи [D]
Краткое содержание
Меня немного удивляет, насколько мало обсуждений ошибок в потоковых моделях синтеза речи (TTS). Люди ищут естественное чтение, высокое качество голоса, выразительность. И большинство моделей здесь не выглядят глупо — они ошибаются. Они терпят неудачу при обработке базовых вещей, таких как цены, даты, URL-адреса, промокоды, номера телефонов. Поэтому я искал информацию и нашел бенчмарк, который сравнивает коммерческие потоковые модели TTS в реальном времени с точки зрения того, как они произносят даты, URL-адреса, аббревиатуры и т. д. Они проверяют более 1000 предложений по 31 категории, а затем используют Gemini, чтобы посмотреть, какие получились результаты. https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html. Мне это кажется достоверным. Очевидно, что это бенчмарк от поставщика, поэтому я не принимаю его как должное, но акцент кажется точным. Это было одной из самых больших проблем для нас в продакшене. Мне интересно, как вы справляетесь с этим на практике. отправлено пользователем/u/lilitbroyan [ссылка] [комментарии]
Полный текст статьи пока не загружен.