Набор данных заголовков негативных новостей, созданных LLM: создание и сравнение с реальной журналистикой

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11591v1 Тип объявления: кросс Аннотация: В данном исследовании изучается потенциал наборов данных, генерируемых большими языковыми моделями (LLM), для поддержки задач обработки естественного языка (NLP), направленных на преодоление проблем, связанных с получением данных и вопросами конфиденциальности реальных данных. Сосредотачиваясь на тексте с отрицательной валентностью — критически важном компоненте анализа настроений, мы исследуем использование синтетических заголовков новостей, созданных с помощью LLM, в качестве альтернативы реальным данным. Специальный корпус негативных новостных заголовков был создан с использованием специально разработанных подсказок для охвата различных видов негативных эмоций в разных социальных сферах. Синтетические заголовки были проверены экспертной оценкой и дополнительно проанализированы в пространстве вложений для оценки их согласованности с негативными новостями реального мира по таким параметрам, как содержание, тон, длина и стиль. Ключевые метрики, такие как корреляция с настоящими заголовками, недоумение (perplexity), связность и реалистичность, также были измерены. Синтетический датасет сравнивался с двумя наборами р...

Полный текст статьи пока не загружен.

Читать оригинал статьи