Насколько хрупка безопасность агентов? Пересмотр рисков агента при сокрытии намерений и сложности задач

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08487v1 Тип объявления: кросс Аннотация: Современные оценки безопасности агентов, управляемых большими языковыми моделями (LLM), главным образом сосредоточены на атомарных угрозах, упуская из виду сложные угрозы, в которых злонамеренные намерения скрыты или размыты внутри сложных задач. Мы восполняем этот пробел посредством двухмерного анализа хрупкости безопасности агента под ортогональным давлением сокрытия намерений и сложности задач. Для этого мы представляем OASIS (Suite для Ортогонального Исследования Безопасности Агента) — иерархический бенчмарк с детальными аннотациями и высокореалистичной симуляционной песочницей. Наши результаты выявляют два критически важных явления: безопасность выравнивания резко ухудшается предсказуемым образом по мере замутнения намерений, и возникает «Парадокс Сложности», когда агент кажется более безопасным на более трудных задачах исключительно вследствие ограничений возможностей. Публикуя OASIS и его среду моделирования, мы закладываем фундаментальные основы для исследования и укрепления безопасности агентов в этих ранее игнорируемых измерениях.

Полный текст статьи пока не загружен.

Читать оригинал статьи