SALT: Управление активациями для предотвращения утечек при цепочечном мышлении
Краткое содержание
arXiv:2511.07772v1 Тип объявления: кросс Аннотация: По мере превращения больших языковых моделей (LLM) в персональных ассистентов с доступом к конфиденциальной информации пользователей перед ними встаёт критическая проблема защиты приватности: хотя предыдущие исследования были сосредоточены на обеспечении конфиденциальности выходных данных, недавние открытия показывают, что LLM часто раскрывают личную информацию через внутренние процессы рассуждений, нарушая ожидания контекстуальной приватности. Такие утечки происходят, когда модели непреднамеренно раскрывают чувствительные детали в следах своего рассуждения даже тогда, когда конечные результаты выглядят безопасными. Задача состоит в предотвращении такой утечки без ущерба для способности модели рассуждать, что требует тонкого баланса между защитой приватности и полезностью. Мы предлагаем метод направленного изменения активаций для предотвращения утечек (Steering Activations towards Leakage-free Thinking — SALT), лёгкое вмешательство во время тестирования, которое снижает риск нарушения приватности в цепочке размышлений модели путём введения целевых управляющих векторов в скрытое состояние. Мы выявляем слои с высокой вероятностью утечек, отвечающие за такое поведение.
Полный текст статьи пока не загружен.