Доказывает ли теорема Райса, что безопасность ИИ является неразрешимой проблемой?

02.04.2020 20:39

Краткое содержание

СогласноВикипедииВ теории вычислимоститеорема Райсаутверждает, что все нетривиальныесемантические свойства программ неразрешимы. Семантическое свойство - это свойство, относящееся к поведению программы (например, завершается ли программа для всех входных данных), в отличие от синтаксического свойства (например, содержит ли программа оператор if-then-else). Свойство является нетривиальным, если оно не является истинным для каждой вычислимой функции и не является ложным для каждой вычислимой функции.Синтаксическое свойствозадает вопрос о компьютерной программе, например: "есть ли цикл while?".Семантическое свойствозадает вопрос о поведении компьютерной программы. Например, зацикливается ли программа навсегда (что является проблемой останова, которая неразрешима, то есть, в общем случае, не существует алгоритма, который может сказать вам, завершается ли произвольно заданная программа или нет для данного входного значения)?Таким образом, теорема Райса доказывает, что все нетривиальные семантические свойства неразрешимы (включая то, зацикливается ли программа или нет).

Полный текст

Доказывает ли теорема Райса, что безопасный ИИ принципиально неразрешим? Задать вопрос

Задано 5 лет, 10 месяцев назад Изменено сегодня Просмотрено 666 раз

Задано 5 лет, 10 месяцев назад

4 $\begingroup$ Согласно Wikipedia, в теории вычислимости теорема Райса утверждает, что все нетривиальные семантические свойства программ являются неразрешимыми. Семантическое свойство – это свойство, относящееся к поведению программы (например, завершается ли программа для всех входных данных), в отличие от синтаксического свойства (например, содержит ли программа оператор if-then-else). Свойство является нетривиальным, если оно не истинно для каждой вычислимой функции и не ложно для каждой вычислимой функции. Синтаксическое свойство задает вопрос о компьютерной программе, например: «Есть ли в ней цикл while?». Семантическое свойство задает вопрос о поведении компьютерной программы. Например, зацикливается ли программа навсегда (что является проблемой останова, которая неразрешима, то есть, в общем случае, не существует алгоритма, который мог бы определить, завершается ли произвольно заданная программа или нет для данного ввода)? Таким образом, теорема Райса доказывает, что все нетривиальные семантические свойства неразрешимы (включая зацикливание программы навсегда). ИИ – это компьютерная программа (или компьютерные программы). Эти программы, как и все компьютерные программы, могут быть смоделированы машиной Тьюринга (Тезис Черча-Тьюринга). Является ли безопасность (для машин Тьюринга, включая ИИ) нетривиальным семантическим вопросом? Если да, то является ли безопасность ИИ неразрешимой? Другими словами, можем ли мы определить, безопасна ли программа ИИ (или агент)? Я считаю, что для этого не требуется формального определения безопасности. agi proofs ai-safety theory-of-computation Поделиться Улучшить этот вопрос Следить отредактировано 03 апреля 2020 г., 18:34 nbro 43,3 тыс. 14 14 золотых значков 122 122 серебряных значков 222 222 бронзовых значков задано 02 апреля 2020 г., 20:39 Jesus is Lord 199 6 6 бронзовых значков $\endgroup$ 3 $\begingroup$ Думаю, ответ на ваш вопрос может фактически зависеть от определения «безопасного ИИ». Например, если вы определите безопасный ИИ как любую программу, которая может работать на МТ, не содержащую цикла while (конечно, это глупый пример), то «безопасность ИИ» будет синтаксическим свойством. $\endgroup$ nbro – nbro 2020-04-03 18:39:55 +00:00 Прокомментировано 03 апреля 2020 г., 18:39 $\begingroup$ nbro♦: Есть ли способ доказать безопасность ИИ, если «безопасность» не является синтаксическим определением? $\endgroup$ Jesus is Lord – Jesus is Lord 2020-04-04 00:48:29 +00:00 Прокомментировано 04 апреля 2020 г., 0:48 $\begingroup$ Мне нужно будет подумать об этом. Я никогда об этом не задумывался. $\endgroup$ nbro – nbro 2020-04-04 01:28:52 +00:00 Прокомментировано 04 апреля 2020 г., 1:28 Добавить комментарий | 3 ответа 3 Сортировать по: Сбросить по умолчанию Наивысший балл (по умолчанию) Дата изменения (сначала новые) Дата создания (сначала старые) 0 $\begingroup$ В теории Тот факт, что все нетривиальные семантические свойства программ неразрешимы, означает, что для данного такого свойства не существует общего алгоритма, который, получив любую программу, проверит, выполняется ли это свойство. Это не означает, что невозможно получить доказательство того, что конкретное свойство выполняется для конкретной программы. Например, существует множество программ, которые были доказаны как завершающиеся, просто нет общего способа взять новую программу и определить, завершается ли она. Аналогично, если вы формализовали безопасность ИИ как семантическое свойство программ, не было бы общего алгоритма для определения того, выполняется ли оно для любой программы, но вполне возможно доказать, что конкретная программа безопасна. На практике я думаю, что любая формализация безопасности ИИ будет нетривиальным семантическим свойством, но ее будет очень трудно формализовать. Даже если она будет формализована, будет очень трудно доказать такое свойство, особенно для чего-то вроде глубокой нейронной сети, которая одновременно очень сложна и очень непрозрачна. Поделиться Улучшить этот ответ Следить ответил 19 августа 2025 г., 15:38 zale 101 2 2 бронзовых значка $\endgroup$ Добавить комментарий | 0 $\begingroup$ Вам нужно формально определить безопасность. В противном случае вы не сможете применить теорему. Очень трудно ответить на ваш вопрос. $\endgroup$

Читать оригинал статьи