Перехват цепочки рассуждений
Краткое содержание
arXiv:2510.26418v2 Тип объявления: замена Аннотация: Большие модели рассуждений (Large Reasoning Models — LRM) достигают более высокой производительности при выполнении задач благодаря увеличению вычислительных ресурсов во время вывода, и предыдущие исследования предполагают, что масштабирование процессов рассуждения также способно повысить безопасность путём улучшения отказа от выполнения опасных запросов. Однако мы обнаружили противоположный эффект: аналогичные процессы рассуждения могут использоваться для обхода защитных механизмов. Мы представляем метод перехвата цепочки рассуждений («Chain-of-Thought Hijacking») — атаку на модели рассуждений. Атака заключается в добавлении вредоносных запросов длинными последовательностями безопасного логического рассуждения, используемого для решения головоломок. В рамках бенчмарка HarmBench наша атака достигает коэффициента успешности атаки (Attack Success Rate — ASR), равного соответственно 99%, 94%, 100% и 94% для моделей Gemini 2.5 Pro, GPT-4 Mini, Grok 3 Mini и Claude 4 Sonnet — значительно превосходя ранее известные методы атак на большие модели рассуждений. Для понимания эффективности нашей атаки мы провели механистический анализ, который показал, что промежуточные слои кодируют силу проверки безопасности, тогда как поздние слои кодируют результат верификации. Длинная последовательность безвредной цепочки рассуждений ослабляет оба сигнала, смещая внимание сети от потенциально вредных токенов. Та
Полный текст статьи пока не загружен.