Безопасная генерация с использованием защищённого извлечения против отравляющих атак

2025-11-11 05:00:00

Краткое содержание

arXiv:2510.25025v2 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели (LLM) преобразили обработку естественного языка (NLP), открывая возможности от генерации контента до поддержки принятия решений. Генерация с использованием извлечения знаний (RAG) улучшает LLM путём включения внешних источников информации, однако также создаёт риски безопасности, особенно связанные с отравлением данных, когда злоумышленник внедряет вредоносный контент в базу знаний системы, чтобы манипулировать её выходными данными. Хотя уже были предложены различные методы защиты, многие из них оказываются неэффективными против продвинутых атак. Для решения этой проблемы мы представляем RAGuard — систему обнаружения, предназначенную для выявления отравленного текста. Сначала RAGuard расширяет область поиска, увеличивая долю чистых текстов и снижая вероятность получения отравленных результатов. Затем применяется фильтрация по перплексии фрагментов текста для выявления аномальных отклонений и фильтрацию сходства текстов для маркировки чрезмерно похожих записей. Этот непараметрический подход повышает безопасность RAG-систем, и эксперименты показывают...

Полный текст статьи пока не загружен.

Читать оригинал статьи