DRIP: Защита от инъекций подсказок с помощью редактирования представления на уровне токенов и объединения остаточных инструкций

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.00447v2 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели (LLM) всё чаще интегрируются в ИТ-инфраструктуры, где они обрабатывают пользовательские данные согласно заранее заданным инструкциям. Однако традиционные LLM остаются уязвимыми к инъекциям запросов, при которых злоумышленники внедряют директивные токены в данные для подрыва поведения модели. Существующие методы защиты обучают LLM семантически разделять токены данных и инструкции, но по-прежнему испытывают трудности с (1) балансировкой между полезностью и безопасностью и (2) предотвращением переопределения преднамеренных инструкций семантикой инструкций, содержащейся в самих данных. Мы предлагаем метод DRIP, который (1) точно удаляет семантику инструкций из токенов раздела данных, сохраняя их семантику данных, и (2) надёжно сохраняет эффект от запланированной инструкции даже при наличии сильного вредоносного контента. Для «деинструктирования» токенов данных DRIP вводит парадигму сбора и обучения данных с лёгким модулем редактирования представлений, который изменяет встраивание...

Полный текст статьи пока не загружен.

Читать оригинал статьи