XBreaking: Понимание того, каким образом нарушается безопасность и соответствие требованиям моделей больших языковых моделей (LLM)

2025-11-10 05:00:00

Краткое содержание

arXiv:2504.21700v3 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели являются ключевыми элементами современного ИТ-ландшафта, определяемого решениями на основе ИИ. Однако угрозы безопасности, связанные с ними, могут препятствовать надёжному внедрению таких моделей в критически важных сценариях применения, таких как государственные организации и медицинские учреждения. По этой причине коммерческие большие языковые модели (LLM), как правило, проходят сложный механизм цензурирования для устранения любого потенциально вредоносного вывода, который они могли бы произвести. Эти механизмы обеспечивают целостность выравнивания больших языковых моделей, гарантируя, что модели отвечают безопасным и этичным образом. В ответ на это атаки на большие языковые модели представляют собой значительную угрозу таким защитам, и многие предыдущие подходы уже продемонстрировали свою эффективность в различных областях. Существующие методы атак на LLM преимущественно используют стратегию генерации и тестирования для формирования вредоносного ввода. Для улучшения понимания механизмов цензуры и разработки целенаправленной атаки мы предлагаем решение на основе интерпретируемого искусственного интеллекта (Explainable-AI), которое...

Полный текст статьи пока не загружен.

Читать оригинал статьи