Аварийный выключатель ИИ для вредоносного веб-агента на основе LLM
Краткое содержание
arXiv:2511.13725v1 Тип объявления: перекрестное Аннотация: В последнее время веб-агенты на основе больших языковых моделей (LLM) автономно выполняют все более сложные задачи, что приносит значительную пользу пользователям. Однако они также усиливают риски злоупотреблений, таких как несанкционированный сбор персональной идентифицируемой информации (PII), создание социально разделяющего контента и даже автоматический взлом веб-сайтов. Для устранения этих угроз мы предлагаем метод "AI Kill Switch", который позволяет немедленно остановить работу вредоносных веб-агентов на базе LLM. С этой целью мы представляем AutoGuard — основная идея заключается в генерации защитных подсказок, которые активируют механизмы безопасности вредоносных агентов LLM. В частности, сгенерированные защитные запросы прозрачно встраиваются в DOM сайта таким образом, чтобы оставаться невидимыми для пользователей-человеков, но обнаруживаться процессом обхода вредоносными агентами, вызывая срабатывание их внутренних механизмов безопасности при чтении и прекращение вредоносных действий. Чтобы оценить наш подход...
Полный текст статьи пока не загружен.