Взлом крупных моделей зрения и языка в интеллектуальных транспортных системах

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13892v1 Тип объявления: новое Аннотация: Большие модели видения и языка (Large Vision Language Models — LVLMs) демонстрируют сильные возможности в мультимодальном рассуждении и многих практических приложениях, таких как визуальный ответ на вопросы. Однако LVLM очень уязвимы к атакам "джейлбрейка". В данной статье систематически анализируются уязвимости LVLM, интегрированных в интеллектуальные транспортные системы (Intelligent Transportation Systems — ITS), под тщательно подготовленными атаками типа "джейлбрейк". Во-первых, мы тщательно создаем набор данных с вредными запросами, относящимися к транспорту, следуя запрещенным категориям OpenAI, на которые LVLM не должны отвечать. Во-вторых, мы представляем новую атаку "джейлбрейк", которая использует уязвимости LVLM через манипуляции типографикой изображений и многошаговое подсказывание. В-третьих, мы предлагаем многослойную технику фильтрации ответов для предотвращения генерации моделью неподходящих ответов. Мы проводим обширные эксперименты с предложенными методами атаки и защиты на современных моделях LVLM (бот

Полный текст статьи пока не загружен.

Читать оригинал статьи