Многометрическое согласование предпочтений для генеративного восстановления речи

2025-11-18 05:00:00

Краткое содержание

arXiv:2508.17229v2 Тип объявления: replace-cross Аннотация: Современные генеративные модели значительно продвинулись в задачах восстановления речи, однако их целевые функции обучения часто не соответствуют перцептивным предпочтениям человека, что приводит к неоптимальному качеству. Хотя послетренировочная адаптация доказала свою эффективность в других генеративных областях, таких как генерация текста и изображений, её применение к генеративному восстановлению речи остаётся в значительной степени неисследованным. В данной работе изучаются проблемы применения послетренировочной адаптации на основе предпочтений к этой задаче, с акцентом на то, как определить надёжный сигнал предпочтения и тщательно отобрать высококачественные данные, чтобы избежать подгонки под функцию вознаграждения. Для решения этих проблем мы предлагаем стратегию адаптации по множественным метрикам. Мы создали новый набор данных GenSR-Pref, содержащий 80 тыс. пар предпочтений, где каждый выбранный образец единогласно признаётся лучшим по дополнительному набору метрик, охватывающих перцептивное качество, точность воспроизведения сигнала, сохранение содержания и сохранение тембра. Такой принципиальный подх

Полный текст статьи пока не загружен.

Читать оригинал статьи