Смещение после подталкивания: Постоянная дискриминация в больших языковых моделях

Оценка: 5/10 2025-11-20 05:00:00

Краткое содержание

arXiv:2509.08146v2 Объявление Тип: replace-cross Аннотация: Опасное предположение, которое можно сделать на основе предыдущих работ по гипотезе переноса смещений (BTH), заключается в том, что смещения не переносятся от предварительно обученных больших языковых моделей (LLM) к адаптированным моделям. Мы опровергаем это предположение, изучая BTH в причинных моделях при адаптации на основе подсказок, поскольку адаптация на основе подсказок является чрезвычайно популярной и доступной стратегией, используемой в реальных приложениях. В отличие от предыдущих работ, мы обнаруживаем, что смещения могут переноситься посредством подсказок, и популярные методы смягчения на основе подсказок не последовательно предотвращают передачу смещений. В частности, корреляция между внутренними смещениями и смещениями после адаптации на основе подсказок остается умеренной или сильной в различных демографических группах и задачах — например, гендер (ρ >= 0,94) при разрешении ссылок, возраст (ρ >= 0,98) и религия (ρ >= 0,69) при ответе на вопросы. Кроме того, мы обнаруживаем, что смещения остаются сильно коррелированными при изменении состава с небольшим количеством примеров.

Полный текст статьи пока не загружен.

Читать оригинал статьи