← Вернуться к списку

Проект восстановления беглости речи

Краткое содержание

Недавно я работал над проектом, где нужно было преобразовывать входные данные — аудио + очищенная транскрипция — в выходные данные — дословная транскрипция. Я использовал wav2vec2 для извлечения аудио-признаков и BART для извлечения текстовых признаков. Затем, используя слой перекрёстного внимания, я получил объединённое представление, которое позже подавалось на вход декодера BART. У меня такой вопрос: в этой схеме каждое слово взаимодействует с каждым аудио-фреймом. Это привело к множественным повторам слов-паразитов. Как мне обеспечить, чтобы слова взаимодействовали только с соответствующими им звуковым фрагментам и, возможно, с ±10-15 кадрами вокруг них? И был ли вообще более подходящий способ решения этой задачи.

Полный текст статьи пока не загружен.