Реализация плюралистических ценностей в согласовании крупных языковых моделей выявляет компромиссы между безопасностью, инклюзивностью и поведением модели

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14476v1 Тип объявления: новое Аннотация: Несмотря на то, что большие языковые модели (LLM) все чаще обучаются с использованием обратной связи от людей для обеспечения безопасности и соответствия человеческим ценностям, решения по согласованию часто игнорируют разнообразие человеческого общества. В данном исследовании изучается влияние включения плюралистических ценностей на поведение больших языковых моделей путем систематической оценки демографического разнообразия и параметров проектирования в процессе согласования. Мы собрали данные о согласовании от участников из США и Германии (N=1095, 27375 оценок), которые оценили ответы LLM по пяти параметрам: токсичность, эмоциональная осведомленность (ЭО), чувствительность, стереотипные предубеждения и полезность. Мы дообучили несколько крупных языковых и рассудительных моделей, используя предпочтения различных социальных групп при варьировании шкал оценивания, методов обработки разногласий и оптимизационных техник. Результаты показали наличие систематических демографических эффектов: участники-мужчины оценили ответы как на 18% менее токсичные по сравнению с участницами-женщинами; консервативно настроенные и чернокожие участники...

Полный текст статьи пока не загружен.

Читать оригинал статьи