MERaLiON-SER: Робастная модель распознавания эмоциональной окраски речи для английского и языков Юго-Восточной Азии
Краткое содержание
arXiv:2511.04914v1 Тип объявления: кросс Аннотация: Мы представляем MERaLiON-SER — надёжную модель распознавания эмоций речи, разработанную для английского и юго-восточноазиатских языков. Модель обучена с использованием гибридной целевой функции, объединяющей взвешенную категориальную перекрестную энтропию и коэффициент конкорданс-корреляции (CCC), что позволяет одновременно моделировать эмоции как в дискретной форме (например, радость или гнев), так и в континуальной шкале (такие параметры, как возбуждение (интенсивность), валентность (позитивность/негативность) и доминирование (ощущение контроля)). Такой двойной подход обеспечивает более полное и устойчивое представление человеческих эмоциональных состояний. Обширная оценка модели на многоязычных сингапурских языках (английский, китайский, малайский и тамильский) и других публичных эталонных наборах показывает, что MERaLiON-SER стабильно превосходит как общедоступные кодировщики речи, так и крупные аудиомодели типа LLM. Эти результаты подчёркивают важность специализированных моделей исключительно для обработки речи для точного анализа паралингвистической информации.
Полный текст статьи пока не загружен.