← Вернуться к списку

Всеобъемлющее исследование неявных и явных предубеждений в больших языковых моделях

Краткое содержание

arXiv:2511.14153v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) наследуют явные и неявные предубеждения из своих обучающих наборов данных. Выявление и устранение предвзятости в LLM имеет решающее значение для обеспечения справедливых результатов, поскольку они могут способствовать распространению вредных стереотипов и дезинформации. В данном исследовании подчеркивается необходимость решения проблемы предвзятости в LLM на фоне растущего интереса к генеративному ИИ. Мы изучили специфичные для предвзятости бенчмарки, такие как StereoSet и CrowSPairs, чтобы оценить наличие различных видов предвзятости во множестве генеративных моделей, таких как BERT и GPT 3.5. Мы предложили автоматизированный Фреймворк идентификации предвзятости для распознавания различных социальных предрассудков в LLM, включая гендерную принадлежность, расу, профессию и религию. Мы использовали двухэтапный подход для выявления явной и скрытой предвзятости в текстовых данных. Результаты показали, что предварительно настроенные модели испытывают трудности с гендерными предрассудками, но успешно выявляют и избегают расовой предвзятости. Наши выводы продемонстрировали, что несмотря на некоторые успехи, LLM часто чрезмерно полагаются на ключевые слова. Для того чтобы прояснить

Полный текст статьи пока не загружен.