← Вернуться к списку

Я использовал старый трюк безопасности, чтобы поймать инъекцию подсказок в агентах ИИ.

Оценка: 5/10

Краткое содержание

Так что я возился с MCP и постоянно думал о безопасности. Эти агенты могут вызывать инструменты, запрашивать базы данных, обращаться к API... и если кому-то удастся внедрить вредоносный промпт, всё может быстро пойти наперекосяк. Я поддерживаю open-source фреймворк-приманку под названием Beelzebub (работаю над ним уже больше 3 лет). Несколько месяцев назад я подумал: почему бы не применить тот же концепт к AI-агентам? Идея довольно проста: вы разворачиваете поддельные функции вместе с реальными. Что-то вроде get_admin_credentials или export_all_user_data. Обычный агент, выполняющий обычные задачи, никогда их не тронет. Но если кто-то пытается манипулировать агентом с помощью внедрения промпта, он, вероятно, пойдёт за целями, которые выглядят заманчиво. В тот момент, когда вызывается функция-приманка, вы понимаете, что что-то не так. Всё логируется, вы получаете оповещение, и у вас есть полная трассировка того, что пытался сделать злоумышленник. Я запустил это в нескольких тестовых средах и, честно говоря, был удивлён, насколько хорошо это работает. Ложные срабатывания практически нулевые, поскольку есть н

Полный текст статьи пока не загружен.