Многометрическое согласование предпочтений для генеративного восстановления речи
Краткое содержание
arXiv:2508.17229v2 Тип объявления: replace-cross Аннотация: Современные генеративные модели значительно продвинулись в задачах восстановления речи, однако их целевые функции обучения часто не соответствуют перцептивным предпочтениям человека, что приводит к неоптимальному качеству. Хотя послетренировочная адаптация доказала свою эффективность в других генеративных областях, таких как генерация текста и изображений, её применение к генеративному восстановлению речи остаётся в значительной степени неисследованным. В данной работе изучаются проблемы применения послетренировочной адаптации на основе предпочтений к этой задаче, с акцентом на то, как определить надёжный сигнал предпочтения и тщательно отобрать высококачественные данные, чтобы избежать подгонки под функцию вознаграждения. Для решения этих проблем мы предлагаем стратегию адаптации по множественным метрикам. Мы создали новый набор данных GenSR-Pref, содержащий 80 тыс. пар предпочтений, где каждый выбранный образец единогласно признаётся лучшим по дополнительному набору метрик, охватывающих перцептивное качество, точность воспроизведения сигнала, сохранение содержания и сохранение тембра. Такой принципиальный подх
Полный текст статьи пока не загружен.