Контекстное нарушение безопасности: Оценка надежности моделей QA (Question Answering), основанных на трансформерах

2025-11-18 05:00:00

Краткое содержание

arXiv:2409.10997v4 Тип объявления: замена Аннотация: Контекстные модели вопросно-ответной системы подвержены влиянию враждебных возмущений входного контекста, часто наблюдаемых в реальных сценариях. Эти вредоносные помехи специально разработаны таким образом, чтобы ухудшить производительность модели путем искажения текстового ввода. Мы представляем уникальный набор данных, который включает семь различных типов враждебных шумов, добавленных в контекст, каждый применён на пяти разных уровнях интенсивности на основе набора данных SQuAD. Для количественной оценки устойчивости мы используем метрики надёжности, предоставляющие стандартизированную меру для оценки производительности моделей при различных типах и уровнях шума. Эксперименты на трансформаторных моделях вопросно-ответных систем выявляют уязвимости надежности и важные сведения о поведении модели при реалистичных текстовых вводах.

Полный текст статьи пока не загружен.

Читать оригинал статьи