На основе балансировки данных и улучшения модели для повышения производительности многометочной классификации настроений
Краткое содержание
arXiv:2511.14073v1 Тип объявления: новое Аннотация: Многометочная классификация настроений играет ключевую роль в обработке естественного языка за счет выявления нескольких эмоций внутри одного текста. Однако существующие наборы данных, такие как GoEmotions, часто страдают от серьезного дисбаланса классов, что негативно сказывается на производительности моделей, особенно для недостаточно представленных эмоций. Для решения этой проблемы мы создали сбалансированный набор данных с многометочной классификацией настроений путем интеграции исходных данных GoEmotions, образцов с метками эмоций из Sentiment140 с использованием модели RoBERTa-base-GoEmotions и вручную размеченных текстов, созданных GPT-4 mini. Наша стратегия балансировки данных обеспечила равномерное распределение по 28 категориям эмоций. На основе этого набора данных мы разработали улучшенную модель многометочной классификации, которая объединяет предварительно обученные вложения FastText, сверточные слои для извлечения локальных признаков, двунаправленную сеть LSTM для контекстного обучения и механизм внимания для выделения слов, релевантных настроению. Слой вывода активируется сигмоидой...
Полный текст статьи пока не загружен.