Всеобъемлющее исследование неявных и явных предубеждений в больших языковых моделях

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14153v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) наследуют явные и неявные предубеждения из своих обучающих наборов данных. Выявление и устранение предвзятости в LLM имеет решающее значение для обеспечения справедливых результатов, поскольку они могут способствовать распространению вредных стереотипов и дезинформации. В данном исследовании подчеркивается необходимость решения проблемы предвзятости в LLM на фоне растущего интереса к генеративному ИИ. Мы изучили специфичные для предвзятости бенчмарки, такие как StereoSet и CrowSPairs, чтобы оценить наличие различных видов предвзятости во множестве генеративных моделей, таких как BERT и GPT 3.5. Мы предложили автоматизированный Фреймворк идентификации предвзятости для распознавания различных социальных предрассудков в LLM, включая гендерную принадлежность, расу, профессию и религию. Мы использовали двухэтапный подход для выявления явной и скрытой предвзятости в текстовых данных. Результаты показали, что предварительно настроенные модели испытывают трудности с гендерными предрассудками, но успешно выявляют и избегают расовой предвзятости. Наши выводы продемонстрировали, что несмотря на некоторые успехи, LLM часто чрезмерно полагаются на ключевые слова. Для того чтобы прояснить

Полный текст статьи пока не загружен.

Читать оригинал статьи