SCRum-9: Классификация позиций на нескольких языках относительно слухов в социальных сетях

2025-11-18 05:00:00

Краткое содержание

arXiv:2505.18916v3 Тип объявления: замена Аннотация: Мы представляем набор данных SCRum-9 — крупнейший многоязычный датасет классификации позиций для анализа слухов на девяти языках, содержащий 7516 сообщений Twitter от платформы X. Набор данных SCRum-9 превосходит существующие наборы данных по классификации позиции благодаря охвату большего числа языков, связям примеров с большим количеством проверенных утверждений (2,1 тыс.) и включению аннотаций, связанных с уровнем уверенности, предоставленных несколькими аннотаторами для учета внутрии межаннотаторской вариативности. Аннотации были выполнены минимум двумя носителями каждого языка, общее время аннотирования составило более 405 часов, компенсация составила свыше 8150 долларов США. Более того, набор данных SCRum-9 используется для оценки пяти крупных языковых моделей (LLM) и двух мультиязычных маскированных языковых моделей (MLM) в сценариях контекстного обучения (ICL) и тонкой настройки. В данной статье также предлагается инновационный подход, исследующий применение синтетических мультиязычных данных для классификации позиций слухов, демонстрируя, что даже LLM с низкой производительностью в контексте ICL способны создавать ценные синтетические данные для последующей тонкой настройки.

Полный текст статьи пока не загружен.

Читать оригинал статьи