Повышение точности распознавания эмоций речи с помощью порождающей модели с регуляризацией взаимной информацией
Краткое содержание
arXiv:2510.10078v2 Тип объявления: замена-перекрёстная публикация Аннотация: Несмотря на значительный прогресс исследований распознавания эмоций речи (SER), достигнутый благодаря методам глубокого обучения, эта область всё ещё сталкивается с проблемой получения высококачественных размеченных наборов тренировочных данных большого объёма. Для решения этой проблемы были предложены методы аугментации данных, среди которых недавно показали свою эффективность генеративные модели. Мы предлагаем фреймворк аугментации данных, основанный на межмодальном переносе информации и регуляризации взаимной информацией. Метрика, основанная на взаимной информации, может служить индикатором качества. Более того, мы расширяем сферу применения данного метода аугментации до мультимодальных входных данных, обеспечивая зависимость между модальностями посредством взаимной информации. Наш подход был протестирован на трёх эталонных наборах данных: IEMOCAP, MSP-IMPROV и MSP-Podcast. Реализация была разработана таким образом, чтобы генерируемые признаки подавались непосредственно на последний слой сети для классификации эмоций. Предложенный нами фреймворк улучшил точность предсказания эмоциональных состояний относительно существующих подходов.
Полный текст статьи пока не загружен.