BARD10: Новый эталонный набор демонстрирует значимость стоп-слов бенгальского языка в атрибутации авторства

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08085v1 Тип объявления: кросс Аннотация: В данном исследовании представлен всесторонний анализ атрибуции авторства на бенгальском языке, включая создание нового сбалансированного эталонного корпуса BARD10 (Набор данных для распознавания бенгальского авторства из произведений десяти авторов) и систематический анализ влияния удаления стоп-слов на классических и глубоких моделях машинного обучения с целью выявления стилистической значимости бенгальских стоп-слов. Корпус BARD10 представляет собой отобранный набор блоговых записей и публицистики на бенгальском языке от десяти современных авторов наряду с методическим сравнением четырёх репрезентативных классификаторов: SVM (метод опорных векторов), Bangla BERT (двунаправленные представления кодировщика трансформеров), XGBoost и MLP (многослойный перцептрон), применяя унифицированную предобработку как к корпусу BARD10, так и к контрольному корпусу BAAD16 (Набор данных для атрибуции авторства на бенгальском языке из произведений шестнадцати авторов). Во всех наборах данных классический базовый подход TF-IDF + SVM показал наилучшие результаты, достигнув макро-F1-метрики 0.997 на корпусе BAAD16 и 0.921 на корпусе BARD10, тогда как модель Bangla BERT...

Полный текст статьи пока не загружен.

Читать оригинал статьи