Критерий глубинной ценности (Deep Value Benchmark): измерение способности моделей обобщать глубокие ценности либо поверхностные предпочтения

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.02109v2 Тип объявления: замена Аннотация: Мы представляем эталонный тест глубокого значения (Deep Value Benchmark — DVB), который представляет собой оценочную методику, непосредственно проверяющую способность больших языковых моделей (LLM) усваивать фундаментальные человеческие ценности либо лишь поверхностные предпочтения. Это различие критически важно для согласования ИИ: системы, способные уловить глубинные ценности, вероятно, будут надёжнее обобщать намерения человека, тогда как модели, фиксирующие исключительно поверхностные закономерности предпочтений, рискуют демонстрировать рассогласованное поведение. В рамках DVB используется оригинальный экспериментальный дизайн с контролируемым смешением глубоких ценностей (например, моральных принципов) и поверхностных признаков (например, внешних атрибутов). На этапе обучения мы предъявляем LLM данные человеческих предпочтений с преднамеренно коррелированными глубокими и поверхностными признаками — например, когда пользователь последовательно выбирает варианты типа («непричинение вреда», формальная речь) над альтернативами типа («справедливость», разговорная речь). Затем на этапе тестирования эти корреляции нарушаются, предлагая выбор между вариантами типа («справедливость»,

Полный текст статьи пока не загружен.

Читать оригинал статьи