Существует ли серьёзная теоретико-игровая работа по риску ИИ и выравниванию?

2023-11-28 17:44:49

Краткое содержание

Моя область — политическая экономия и теория игр. Я интересуюсь дискуссиями об ИИ-рисках и выравнивании, но пока не смог найти работ на эту тему, которые бы серьезно опирались на классическую аксиоматическую теорию рационального выбора (ТРЧ). Некоторые утверждения, на мой взгляд, противоречат основным принципам ТРЧ. Например, часто говорят, что достаточно развитый ИИ может придумать собственные цели, которые поставят под угрозу человечество. Однако, согласно ТРЧ, агенты могут выбирать только действия, в то время как их предпочтения (цели) являются примитивами модели. Бессмысленно думать, что агент выбирает свои цели, за исключением некоторых четко определенных динамических моделей (скажем, модели рациональной зависимости Беккера), где будущие предпочтения являются результатом действий, которые могут быть выведены путем анализа равновесия из примитивных предпочтений. Другое утверждение, которое меня смущает, заключается в том, что действия достаточно разумного ИИ могут быть невозможны для предсказания. Однако, мне кажется, чем умнее агент, тем более предсказуемым должно быть его поведение, поскольку оно должно подчиняться строгим логическим ограничениям, налагаемым рациональностью. Если агент действует непредсказуемо, это обычно означает, что мы плохо понимаем его цели или ограничения, а не то, что он слишком умен для предсказания. Вопрос о предсказуемости, строго говоря, относится к нашей эпистемической позиции, а не к онтологическим свойствам самого агента. Важно отметить, что в рамках ТРЧ «цели» — это не сущности, существующие независимо от агента, а скорее отражение его предпочтений, закодированных в utility function. Утверждение, что ИИ может «придумать» новые цели, подразумевает, что utility function сама по себе может измениться, что является проблематичным в рамках стандартной модели. В стандартной модели предпочтения заданы, и агент максимизирует utility, выбирая действия. Если мы хотим смоделировать изменение целей, мы должны выйти за рамки статической модели и использовать динамическую модель, где текущие действия влияют на будущие предпочтения. Но и в этом случае «цели» не выбираются произвольно; они являются результатом оптимизации во времени, основанной на примитивных предпочтениях. Поэтому утверждение о том, что ИИ может «придумать» цели, ставящие под угрозу человечество, требует гораздо большей теоретической проработки, чем обычно признается. Что касается предсказуемости, то, как я уже говорил, чем выше разумность агента, тем более детерминированным должно быть его поведение в рамках заданных ограничений. Если ИИ действительно разумен, он должен следовать логике максимизации utility. Любое отклонение от этого будет выглядеть как иррациональность, что противоречит самому определению разумности. Следовательно, проблема не в том, что ИИ слишком умен, чтобы его можно было предсказать, а в том, что мы, возможно, не полностью понимаем его модель мира или его utility function. Если мы не можем предсказать действия ИИ, это, скорее всего, означает, что мы не можем адекватно смоделировать его ограничения или информацию, которой он обладает. Таким образом, вопрос предсказуемости сводится к вопросу о качестве нашей модели, а не о непредсказуемости самого ИИ. В заключение, я считаю, что дискуссия об ИИ-рисках выиграла бы от более строгого применения теории рационального выбора. Многие популярные аргументы кажутся несовместимыми с базовыми принципами экономики и теории игр. Вместо того чтобы полагаться на интуитивные представления о «целях» и «разумности», нам следует формализовать эти концепции в рамках математических моделей, которые четко определяют, как агенты принимают решения и как их предпочтения соотносятся с действиями. Только тогда мы сможем вести содержательный диалог о реальных рисках, связанных с ИИ.

Полный текст статьи пока не загружен.

Читать оригинал статьи