Повышение качества моделирования диалогов речь-речь с помощью сквозной генерации с расширением поиском

2025-11-12 05:00:00

Краткое содержание

arXiv:2505.00028v2 Тип объявления: замена-перекрёстная публикация Аннотация: Энд-ту-энд системы преобразования речи в речь (S2S), предназначенные для диалоговых взаимодействий, недавно привлекли повышенное внимание исследователей благодаря своей низкой задержке и естественной интеграции невербальных сигналов, таких как эмоции и идентификация говорящего. Однако такие системы сталкиваются с ключевыми проблемами, особенно связанными с использованием внешних знаний — задача, традиционно решающаяся методами дополненного извлечения (Retrieval-Augmented Generation, RAG) в текстовых больших языковых моделях (Large Language Models, LLMs). Основная трудность заключается в разрыве между модальностью входной речи и извлечёнными текстовыми знаниями, препятствующем эффективному объединению информации. Для решения этой проблемы мы предлагаем новый энд-ту-энд подход RAG, который непосредственно извлекает релевантные текстовые знания из голосовых запросов. Экспериментальные результаты показывают, что наш метод значительно улучшает производительность энд-ту-энд систем S2S-диалога, достигая при этом высокой эффективности поиска. Несмотря на это, общая производительность всё ещё отстаёт от уровня современных передовых решений (State-of-the-Art, SOTA).

Полный текст статьи пока не загружен.

Читать оригинал статьи