Потеря уверенности: моральная неопределенность в согласовании человек-ЛМ (Large Language Model)

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13290v1 Тип объявления: кросс Аннотация: Люди проявляют значительную неопределенность, сталкиваясь с моральными дилеммами, однако степень такой неопределенности в машинах и ИИ-агентах остается недостаточно изученной. Недавние исследования подтвердили склонность машинных ответов к чрезмерной уверенности, особенно в больших языковых моделях (LLM). Поскольку эти системы всё чаще внедряются в сценарии этического принятия решений, важно понимать их моральный рассудок и присущую неопределённость при создании надёжных систем искусственного интеллекта. В данной работе исследуется влияние неопределённости на принятие моральных решений в классической задаче о вагонетке, проводится анализ ответов от 32 моделей с открытым исходным кодом и девяти различных моральных измерений. Мы впервые обнаружили, что вариация уровня уверенности модели больше различается между моделями, нежели внутри отдельных моральных измерений, что свидетельствует о том, что моральная неопределённость преимущественно формируется архитектурой модели и методом её обучения. Для количественной оценки неопределённости мы измеряем двоичную энтропию как линейную комбинацию...

Полный текст статьи пока не загружен.

Читать оригинал статьи