← Вернуться к списку

VoiceCraft-X: Объединение мультиязычной речи, синтеза голоса-клона и редактирования речи

Краткое содержание

arXiv:2511.12347v1 Тип объявления: кросс Аннотация: Мы представляем VoiceCraft-X — автокодековую нейронную языковую модель с авторегрессией, объединяющую редактирование многоязычной речи и синтез речи по тексту (Text-to-Speech, TTS) методом нулевого выстрела для 11 языков: английский, мандаринский китайский, корейский, японский, испанский, французский, немецкий, голландский, итальянский, португальский и польский. VoiceCraft-X применяет большую языковую модель Qwen3 для обработки текста на разных языках без фонетического анализа и новый механизм переупорядочивания токенов с временнóй синхронизацией между текстом и речью, позволяющий решать обе задачи как единую проблему последовательной генерации. Модель генерирует высококачественную речь естественного звучания, плавно создавая новые аудиозаписи или редактируя существующие записи в рамках единой архитектуры. VoiceCraft-X демонстрирует надежную производительность в различных лингвистических условиях даже при ограниченном объеме данных на каждый язык, подчеркивая потенциал унифицированных подходов с авторегрессией для развития сложных реальных приложений многоязычного синтеза речи. Аудиопримеры доступны по адресу https://zhisheng

Полный текст статьи пока не загружен.