Скрытые в шуме: выявление бэкдоров в выравнивании аудиомоделей LLM через триггеры латентных акустических паттернов
Краткое содержание
arXiv:2508.02175v3 Тип объявления: замена-перекрёстная публикация Аннотация: По мере того как аудиомодели больших языковых моделей (ALLM) становятся мощными инструментами для обработки речи, их последствия с точки зрения безопасности требуют немедленного внимания. В то время как значительное количество исследований было посвящено вопросам текстовой и визуальной безопасности, уникальные характеристики аудио представляют значительные трудности. В данной статье мы впервые исследуем вопрос: уязвима ли ALLM к атакам через бэкдоры, использующим акустические триггеры? Для ответа на этот вопрос мы представляем "Hidden in the Noise" (HIN), новую архитектуру атаки через бэкдор, предназначенную для использования тонких особенностей звука. HIN применяет акустические модификации к исходным аудиосигналам, такие как изменения временных характеристик и стратегическое добавление спектрально настроенного шума. Эти изменения вводят согласованные паттерны, которые захватываются кодировщиком акустических признаков ALLM, встраивая в аудиопоток устойчивые триггеры. Чтобы оценить устойчивость ALLM против триггеров, основанных на признаках аудио, мы разработали бенчмарк AudioSafe, оценивающий девять...
Полный текст статьи пока не загружен.