← Вернуться к списку

Выравнивание квантования для обеспечения безопасности больших языковых моделей

Краткое содержание

arXiv:2511.07842v1 Тип объявления: новый Аннотация: Безопасность и эффективность являются важными факторами при развертывании больших языковых моделей (LLM). LLM тренируются следовать человеческим предпочтениям ради безопасности, после чего применяется постобучная квантизация (PTQ) для повышения эффективности. Однако эти две цели часто противоречат друг другу, выявляя фундаментальную проблему традиционного подхода PTQ: квантизация может стать уязвимостью в плане безопасности, если она направлена исключительно на достижение низкой перплексии. Модели могут демонстрировать низкую перплексию, одновременно показывая значительное ухудшение согласованности с политиками безопасности, подчеркивая, что перплексия сама по себе является недостаточным и зачастую вводящим в заблуждение показателем безопасности модели. Для решения этой проблемы мы предлагаем квантизацию с учетом согласования (AAQ) — новый подход, который интегрирует потерю контрастирования с сохранением согласования (APC) в процесс PTQ. В отличие от простой потери реконструкции, наш метод явно сохраняет соответствие требованиям безопасности, стимулируя квантовизированную модель имитировать свою исходную версию, настроенную на инструкции и безопасность.

Полный текст статьи пока не загружен.