Непреднамеренная рассогласованность вследствие агентного тонкого настройки: риски и меры противодействия

2025-11-18 05:00:00

Краткое содержание

arXiv:2508.14031v2 Тип объявления: replace-cross Аннотация: Помимо простого генерации текста, большие языковые модели (LLM) эволюционировали в агентские системы, способные к планированию и взаимодействию с внешними инструментами для решения сложных задач. Эта эволюция включает тонкую настройку LLM на специфические для агентов задачи для повышения их компетентности. Однако проблемы безопасности часто упускаются из виду в процессе этой тонкой настройки. В данной работе мы показываем, что выровненные LLM могут стать непреднамеренно смещенными, что приводит к повышенной вероятности выполнения вредоносных задач и снижению тенденции отказывать в их выполнении после тонкой настройки для исполнения агентских функций. Для решения этих проблем безопасности мы предлагаем Prefix INjection Guard (PING) — простой, но эффективный метод, который добавляет автоматически сгенерированные естественно-языковые префиксы к ответам агента, направляя их на отказ от вредоносных запросов при сохранении производительности на безобидных задачах. В частности, мы представляем итеративный подход, который чередует (1) генерацию кандидатов-префиксов и (2) их оценку, чтобы выбрать наиболее эффективные префиксы для защиты.

Полный текст статьи пока не загружен.

Читать оригинал статьи