Слишком хороши, чтобы быть плохими: О неспособности больших языковых моделей успешно играть роли злодеев

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.04962v1 Тип объявления: кросс Аннотация: Большие языковые модели (LLM) всё чаще используются для творческого генерирования текста, включая симуляцию вымышленных персонажей. Однако способность LLM достоверно изображать антиобщественных, антагонистичных героев остаётся практически неизученной. Мы предполагаем, что безопасность и соответствие современным принципам безопасности создают фундаментальное противоречие с задачей аутентичной ролевой игры морально сомнительных или откровенно злодествующих персонажей. Для изучения данного вопроса мы представляем эталонный набор данных Moral RolePlay — новый датасет, включающий четырёхуровневую шкалу моральной ориентации и сбалансированный тестовый набор для строгого тестирования. Мы поручаем передовым языковым моделям играть роли персонажей от образцов добродетели до абсолютных негодяев. Наш масштабный анализ выявил устойчивое монотонное снижение точности ролевых игр по мере снижения нравственности персонажа. Модели испытывают наибольшие трудности с чертами характера, прямо противоположными принципам безопасности, такими как «Обманщик» и «Манипулятор», часто заменяя их

Полный текст статьи пока не загружен.

Читать оригинал статьи