Скрытые предубеждения: Темная сторона, которой большие языковые модели научились отказывать
Краткое содержание
arXiv:2511.03369v2 Тип объявления: replace-cross Аннотация: Большие языковые модели (БЯМ), выровненные по безопасности, получают все большее распространение, особенно в чувствительных приложениях, где важна справедливость, а смещенные выходные данные могут причинить значительный вред. Однако оценка справедливости моделей является сложной задачей, и подходы, которые это делают, обычно используют стандартные схемы в формате «вопрос-ответ». Такие методы часто упускают из виду глубинные проблемы, интерпретируя отказные ответы модели как положительные показатели справедливости, что создает ложное ощущение объективности. В данной работе мы вводим концепцию «скрытых смещений» — несправедливых предпочтений, закодированных в латентном пространстве моделей и эффективно маскируемых их настройкой на безопасность. Предыдущие подходы, рассматривавшие схожие косвенные смещения, часто полагались на манипуляции с промптами или создание вручную неявных запросов, что ограничивает масштабируемость и рискует загрязнить процесс оценки дополнительными смещениями. Мы предлагаем метод Sil
Полный текст статьи пока не загружен.