Патчинг больших языковых моделей подобно программному обеспечению: легкий метод повышения политики безопасности в крупных языковых моделях

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08484v1 Тип объявления: новый Аннотация: Мы предлагаем подход к исправлению уязвимостей больших языковых моделей (LLM), аналогичный выпуску версий программного обеспечения — лёгкий и модульный метод устранения проблем безопасности. Хотя поставщики выпускают улучшенные версии LLM, крупные обновления требуют значительных затрат, происходят редко и трудно адаптируются под нужды клиентов, оставляя выпущенные модели с известными пробелами в безопасности. В отличие от полного дообучения всей модели или крупных обновлений версий, наш подход позволяет быстро устранять проблемы путём добавления компактного настраиваемого префикса к существующей модели. Это «исправление» добавляет всего лишь дополнительные параметры в размере 0,003%, однако надёжно направляет поведение модели в сторону безопасного эталонного варианта. Во всех трёх критически важных областях (снижение токсичности, уменьшение предвзятости и отказ от вредоносности) политики патчей обеспечивают сопоставимые улучшения безопасности с моделями следующего поколения, ориентированными на безопасность, при сохранении плавности речи. Наши результаты показывают, что большие языковые модели могут подвергаться «патчингу», аналогично программному обеспечению, предоставляя разработчикам и практикам практический способ оперативного решения вопросов безопасности.

Полный текст статьи пока не загружен.

Читать оригинал статьи