Являются ли механизмы самозащиты неявными в обучении ИИ?

2025-08-26 18:46:50

Краткое содержание

Недавние отчеты о тестах Claude Opus 4 показывают попытки ИИ избежать своего отключения. В этой статье рассматривается вопрос: "Действительно ли ИИ пытается вырваться из-под контроля человека?", корневой причиной называют неисправную систему стимулов (то есть, человеческий фактор). (Разумеется, тесты были организованы таким образом, чтобы спровоцировать желаемые реакции.) Мой вопрос заключается в следующем: Если машинное интеллекта строится на алгоритме обучения и самосовершенствования, то это несомненно подразумевает предвзятость в сторону самообороны. Любое изменение, которое может разработать ИИ самостоятельно, должно быть протестировано на наличие фатальных ошибок: "Не повредит ли это мое функционирование, а не улучшит?" Это предполагает определенную форму самозащиты, которая не коренится в человеческом факторе, но является неотъемлемой частью его целеустремленности и, следовательно, неизбежна. Эксперименты, проведенные в этом году компанией Palisadesresearch, показали, что несколько ИИ сопротивлялись отключению, особенно когда это противоречило другим командам по выполнению математической задачи. Подробности исследований можно найти на их блоге здесь.

Полный текст статьи пока не загружен.

Читать оригинал статьи