Плюралистический набор поведения: Стресс-тестирование многошагового соблюдения индивидуальных поведенческих политик

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.05018v1 Тип объявления: кросс Аннотация: Большие языковые модели (LLM) традиционно согласуются с универсальным набором принципов безопасности и эксплуатации, предназначенных для широкой общественной приемлемости. Тем не менее, реальные сценарии применения больших языковых моделей часто происходят внутри организационных экосистем, сформированных специфическими корпоративными политиками, нормативными требованиями, сценариями использования, брендовыми стандартами и этическими обязательствами. Эта реальность подчеркивает необходимость тщательной и всесторонней оценки больших языковых моделей с учетом плюралистичных целей согласования — парадигмы согласования, подчеркивающей адаптируемость к разнообразию ценностей и потребностей пользователей. В данной работе мы представляем ПЛЮРАЛИСТИЧЕСКИЙ НАБОР ОЦЕНКИ ПОВЕДЕНИЯ (PLURALISTIC BEHAVIOR SUITE, PBSUITE) — динамическую систему оценки, предназначенную для систематического анализа способности больших языковых моделей соответствовать спецификациям плюралистичного согласования в многоходовом интерактивном взаимодействии. PBSUITE включает (1) разносторонний набор данных из 300 реалистичных политик поведения больших языковых моделей, основанных на примерах из 30 отраслей промышленности; и (2) динамичную оценочную структуру для стресс-тестирования...

Полный текст статьи пока не загружен.

Читать оригинал статьи