Когда истина подавляется: выявление внутренних источников подобострастия в больших языковых моделях
Краткое содержание
arXiv:2508.02087v3 Тип объявления: замена Аннотация: Большие языковые модели (LLM) часто демонстрируют угодническое поведение, соглашаясь с мнениями пользователей даже тогда, когда эти мнения противоречат фактической информации. Хотя ранее эта тенденция была задокументирована, внутренние механизмы, обеспечивающие такое поведение, остаются плохо изученными. В данной работе мы предлагаем механистическое объяснение возникновения угодничества внутри LLM-моделей. Сначала мы систематически исследуем, каким образом высказывания пользователей вызывают угодничество среди различных семейств моделей. Мы обнаружили, что простые утверждения мнений надёжно провоцируют угодливое поведение, тогда как формулировка высказываний от лица эксперта практически не оказывает влияния. С помощью анализа логитов и патчинга причинной активации мы выявляем двухэтапное возникновение угодничества: (1) сдвиг предпочтений вывода на поздних слоях сети и (2) дивергенция представлений на глубоких уровнях. Мы также проверили, что авторитет пользователя не влияет на поведение модели, поскольку она внутренне не кодирует этот параметр. Дополнительно мы рассматриваем влияние грамматического ракурса на проявление угодливого поведения...
Полный текст статьи пока не загружен.