← Вернуться к списку

IMSE: Эффективное улучшение речи на основе U-Net с использованием свёрточных слоёв Inception depthwise и линейного внимания к амплитуде

Краткое содержание

arXiv:2511.14515v1 Тип объявления: кросс Аннотация: Достижение баланса между облегченным дизайном и высокой производительностью остается серьезной проблемой для задач улучшения речи (SE) на устройствах с ограниченными ресурсами. Современные методы, такие как MUSE, установили прочную базовую линию всего лишь с 0,51 млн параметров путем введения трансформера с многопутевым усилением Тейлора (MET) и деформируемого вложения (DE). Однако детальный анализ показывает, что MUSE все еще страдает от проблем с эффективностью: модуль MET полагается на сложный механизм «приблизительного компенсации» для смягчения ограничений внимания, основанного на разложении в ряд Тейлора, а расчет смещения для деформируемых вложений добавляет дополнительную вычислительную нагрузку. В данной статье предлагается IMSE — сеть, оптимизированная системно и ультра-облегченная. Мы вводим два основных нововведения: 1) Замена модуля MET на линейное внимание, учитывающее амплитуду (MALA). MALA принципиально исправляет проблему «игнорирования амплитуды».

Полный текст статьи пока не загружен.