SupraWall – слой перехвата до выполнения для агентов ИИ (детерминированное принудительное соблюдение политики вне контекста LLM, Apache 2.0)
Краткое содержание
**Проблема, с которой я постоянно сталкивался:** Агенты LLM, выполняющие вызовы инструментов на основе инструкций в системном промпте, являются лишь вероятностно безопасными. Модель сама решает, следовать ли правилу. Когда заполняются контекстные окна, когда промпты составлены с целью обмана (adversarially), или когда модель просто галлюцинирует — инструкция игнорируется. Это не гипотеза: это режим отказа, стоящий за большинством документированных инцидентов с ИИ-агентами в реальной эксплуатации.**Архитективная альтернатива:** Полностью вывести принуждение политики за пределы контекста LLM. Обращаться с каждым вызовом инструмента как с недоверенным вводом для детерминированного движка политик, а не как с вопросом для модели. Именно это и делает SupraWall. Он оборачивает вашего агента и перехватывает каждый вызов инструмента (записи в базу данных, вызовы API, команды оболочки, файловые операции) *до выполнения*. Каждый вызов оценивается по политике, определенной в коде, а не в промпте. Результат детерминирован: одинаковый ввод, одинаковый результат, каждый раз.**Как это работает архитектурно:** Агент → [Перехватчик SupraWall] → Инструмент↓Po
Полный текст статьи пока не загружен.