Самообучение многоагентных VLM с использованием функции потерь PNU для обнаружения оскорбительного контента в условиях ограниченных ресурсов
Краткое содержание
arXiv:2511.13759v1 Тип объявления: кросс Аннотация: Точное обнаружение оскорбительного контента в социальных сетях требует высококачественных размеченных данных; однако такие данные часто ограничены из-за низкой распространенности случаев оскорблений и высокой стоимости ручного аннотирования. Для решения этой проблемы с ограниченными ресурсами мы предлагаем фреймворк самообучения, который использует обширные неразмеченные данные через совместную псевдоразметку. Начав с легковесного классификатора, обученного на небольшом количестве размеченных данных, наш метод итерационно присваивает псевдо-метки неразмеченным экземплярам при поддержке многоагентных моделей видения и языка (MA-VLM). Неразмеченные данные, по которым классификатор и модели MA-VLM приходят к согласию, обозначаются как набор "Согласованных-неизвестных", а конфликтующие образцы формируют набор "Несогласованных-неизвестных". Чтобы повысить надежность меток, модели MA-VLM имитируют двойную перспективу — модератора и пользователя, охватывая как нормативный, так и субъективный взгляды. Классификатор оптимизируется с использованием нового подхода «Положительный-Негативный-Неразмеченный» (PNU)
Полный текст статьи пока не загружен.