SynBullying: Многоагентный синтетический разговорный датасет на основе LLM-моделей для обнаружения кибербуллинга

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11599v1 Тип объявления: кросс Аннотация: Мы представляем SynBullying — синтетический многоязычный набор данных диалоговых взаимодействий для изучения и обнаружения кибербуллинга (КБ). SynBullying предлагает масштабируемую и этически безопасную альтернативу сбору человеческих данных путем использования больших языковых моделей (LLM), имитирующих реалистичные взаимодействия буллинга. Набор данных включает: (i) структуру диалога, охватывающую многотуровые обмены сообщениями, а не изолированные посты; (ii) контекстно-зависимые аннотации, где вредоносность оценивается внутри потока разговора с учетом контекста, намерений и динамики общения; (iii) детальную маркировку, покрывающую различные категории КБ для подробного лингвистического и поведенческого анализа. Мы оцениваем SynBullying по пяти измерениям, включая структуру диалога, лексические паттерны, эмоциональный тон/токсичность, динамику ролей, интенсивность вреда и распределение типов КБ. Далее мы исследуем полезность набора данных, проверяя его производительность как самостоятельных тренировочных данных и как средства расширения существующих наборов данных.

Полный текст статьи пока не загружен.

Читать оригинал статьи