Генерация враждебных текстов с участием человека в цикле обработки: исследование на примере тибетского письма

2025-11-18 05:00:00

Краткое содержание

arXiv:2412.12478v5 Тип объявления: замена Аннотация: Языковые модели на основе глубоких нейронных сетей превосходят другие подходы во множестве задач обработки естественного языка (NLP), однако остаются крайне уязвимыми к атакам на уровне текста. Хотя создание вредоносных текстов имеет решающее значение для обеспечения безопасности NLP-систем, объяснения работы моделей, оценки качества и расширения наборов данных, большинство исследований сосредоточено исключительно на английском языке, оставляя проблему построения высококачественных и устойчивых бенчмарков устойчивости к подобным атакам для менее обеспеченных ресурсами языков недостаточно изученной и сложной задачей. Во-первых, адаптация методов для низко-ресурсных языков осложняется лингвистическими различиями и ограниченными доступными ресурсами. Во-вторых, автоматические атаки склонны порождать некорректные или двусмысленные вредоносные тексты. Наконец, языковые модели постоянно развиваются и могут стать невосприимчивыми к части ранее созданных вредоносных примеров. Для решения указанных проблем мы предлагаем систему HITL-GAT — интерактивный подход, основанный на участии человека в цикле генерации вредоносных текстов. Ад

Полный текст статьи пока не загружен.

Читать оригинал статьи