← Вернуться к списку

SpeechJudge: К оценке уровня естественной речи человека

Краткое содержание

arXiv:2511.07931v1 Тип объявления: кросс Аннотация: Согласование больших генеративных моделей с обратной связью от человека является критически важной задачей. В синтезе речи эта проблема особенно выражена из-за отсутствия крупномасштабного набора данных предпочтений людей, что препятствует разработке моделей, действительно согласованных с человеческим восприятием. Для решения этой проблемы мы представляем SpeechJudge — комплексный набор инструментов, включающий набор данных, эталонную оценку и модель вознаграждения, ориентированные на натуральность — один из наиболее фундаментальных субъективных показателей качества синтеза речи. Во-первых, мы предлагаем SpeechJudge-Data — большой корпус человеческих оценок, состоящий из 99 тысяч пар образцов речи. Набор данных сформирован с использованием разнообразного множества передовых нулевых TTS-моделей (текст-в-речь), охватывающих различные стили речи и несколько языков, с аннотациями людей относительно разборчивости и предпочтения натуральной звучности. На основе этого корпуса мы формируем SpeechJudge-Eval — сложную контрольную точку оценки натурального звучания речи. Наш анализ показывает, что существующие метрики и

Полный текст статьи пока не загружен.