Скрытая тонкая настройка: эффективное нарушение согласованности в RVLM с использованием самостоятельно генерируемого CoT

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14106v1 Тип объявления: новый Аннотация: Модели видения и языка с усилением рассуждений (RVLM) полагаются на выравнивание безопасности для предотвращения вредного поведения, однако их открытые цепочки рассуждений (CoT) создают новые уязвимости. В данной работе мы обнаружили, что безопасность RVLM может быть легко нарушена новым методом атаки под названием **Скрытая дообучение** (**Stealth Fine-Tuning**). Наш метод вызывает вредные следы рассуждений через **сегментный уровень вмешательства**, повторно используя самостоятельно созданные выходные данные в качестве данных контролируемого дообучения. С помощью дизайна потерь на основе **взвешенного по очереди подхода** достигается легкий, согласованный с распределением метод дообучения. В нашем эксперименте всего лишь 499 образцов и менее чем за три часа на одном графическом процессоре A100 (QLoRA) Скрытое Дообучение превосходит IDEATOR на 38,52% по показателю успешности атак (ASR), сохраняя при этом общую способность к рассуждению, так как настроенная модель сохраняет исходное распределение представлений. Эксперименты на наборе данных AdvBench и нескольких общих эталонных тестах показывают, что Скрытое Дообучение...

Полный текст статьи пока не загружен.

Читать оригинал статьи