Обзор JailbreakZoo: исследование ландшафта и перспективы взлома крупных языковых моделей и моделей зрения-языка

2025-11-11 05:00:00

Краткое содержание

arXiv:2407.01599v3 Тип объявления: замена-перекрёстная публикация Аннотация: Быстрая эволюция искусственного интеллекта (ИИ), обусловленная развитием больших языковых моделей (LLM) и визуально-языковых моделей (VLM), привела к значительным достижениям во многих технологических областях. Хотя эти модели повышают возможности обработки естественного языка и выполнения интерактивных визуальных задач, их растущее распространение вызывает серьёзную озабоченность вопросами безопасности и этического соответствия. Настоящий обзор даёт исчерпывающий анализ нового направления исследований — взлома ограничений («jailbreaking») LLM и VLM путём преднамеренного обхода установленных этических и операционных границ, а также последующего развития механизмов защиты от такого вмешательства. В нашем исследовании выделяются семь различных типов взлома и подробно рассматриваются стратегии обороны, направленные на устранение выявленных уязвимостей. Проведённый всесторонний анализ позволяет выявить пробелы в исследованиях и предложить перспективные направления дальнейших работ по укреплению систем безопасности LLM и VLM. Полученные результаты подчёркивают необходимость...

Полный текст статьи пока не загружен.

Читать оригинал статьи