Как следует интерпретировать эту фигуру, связывающую критерий персептрона и функцию потерь "кратность"?

21.11.2020 13:19

Краткое содержание

Я в настоящее время изучаю учебник «Нейронные сети и глубокое обучение» Чару Ч. Аггарвала. Глава 1.2.1.2 Отношение с Support Vector Machines утверждает следующее: критерий перцептрона является смещенной версией функции потерь типа "отсечка", используемой в Support Vector Machines (см. главу 2). Функция потерь типа "отсечки" еще более похожа на критерий нулевого-одного потерь уравнения 1.7 и определяется следующим образом:$$L_i^{svm} = \max\{ 1 - y_i(\overline{W} \cdot \overline{X}_i), 0 \} \tag{1.9}$$Обратите внимание, что перцептрон не сохраняет постоянный член $1$ справа от уравнения 1.7, в то время как функция потерь типа "отсечка" сохраняет этот константу внутри функции максимизации. Это изменение не влияет на алгебраическое выражение для градиента, но оно изменяет, какие точки являются безпотерятельными и не должны вызывать обновления. Отношение между критерием перцептрона и функцией потерь типа "отсечка" показано на рисунке 1.6. Эта схожесть становится особенно очевидной при переписывании обновлений перцептрона из уравнения 1.6 как f

Полный текст

Как следует интерпретировать эту фигуру, которая связывает критерий персептрона и функцию потерь Хинжа?Задать вопросЗадано 4 года, 11 месяцев назадИзменено сегодняПросмотрено 1000 разЗадано 4 года, 11 месяцев назад 8$\begingroup$Я в настоящее время изучаю учебник «Нейронные сети и глубокое обучение» Чару C. Аггарвал. Глава 1.2.1.2 Отношение с машинами поддержки векторного типа (см. Глава 2) утверждает следующее:Критерий персептрона является смещенной версией функции потерь Хинжа, используемой в машинах поддержки векторного типа (см. Глава 2). Функция потерь Хинжа еще больше похожа на нулевую-одно критерия потери из Уравнения 1.7 и определяется следующим образом:$$L_i^{svm} = \max\{ 1 - y_i(\overline{W} \cdot \overline{X}_i), 0 \} \tag{1.9}$$Обратите внимание, что персептрон не сохраняет постоянный член 1 на правой стороне Уравнения 1.7, в то время как функция потерь Хинжа сохраняет этот константу внутри функции максимизации. Эта смена не влияет на алгебраическое выражение для градиента, но она изменяет точки, которые являются безпотерянными и не должны вызывать обновления. Отношение между критерием персептрона и функцией потерь Хинжа показано на Фигуре 1.6. Эта схожесть становится особенно очевидной, когда обновления персептрона из Уравнения 1.6 переписываются следующим образом:$$\overline{W} \Leftarrow \overline{W} + \alpha \sum_{(\overline{X}, y) \in S^+} y \overline{X} \tag{1.10}$$Здесь $S^+$ определяется как множество всех неправильно классифицированных обучающих точек $\overline{X} \in S$, которые удовлетворяют условию $y(\overline{W} \cdot \overline{X}) < 0$. Этот аппроксимирующий процесс выглядит немного иначе, чем персептрон, потому что персептрон использует ошибку $E(\overline{X})$ для обновления, которая заменяется $y$ в вышеуказанном обновлении. Важный момент заключается в том, что (целочисленное) значение ошибки $E(X) = (y - \text{sign}\{\overline{W} \cdot \overline{X} \}) \in \{ −2, +2 \}$ никогда не равно 0 для неправильно классифицированных точек в $S^+$. Следовательно, мы имеем $E(\overline{X}) = 2y$ для неправильно классифицированных точек, и $E(X)$ можно заменить на $y$ в обновлениях после того, как фактор 2 включен внутри скорости обучения. Уравнение 1.6 выглядит следующим образом:$$\overline{W} \Leftarrow \overline{W} + \alpha \sum_{\overline{X} \in S} E(\overline{X})\overline{X}, \tag{1.6}$$где $S$ является случайно выбранным подмножеством обучающих точек, $\overline{X} = [x_1, \dots, x_d]$ является экземпляром данных (вектором из d переменных признаков), $\overline{W} = [w_1, \dots, w_d]$ являются весами, $\alpha$ - это скорость обучения, а $E(\overline{X}) = (y - \hat{y})$ - это значение ошибки, где $\hat{y} = \text{sign}\{ \overline{W} \cdot \overline{X} \}$ является предсказанием, а $y$ - наблюдаемое значение двоичной переменной класса. Уравнение 1.7 выглядит следующим образом:$$L_i^{(0/1)} = \dfrac{1}{2} (y_i - \text{sign}\{ \overline{W} \cdot \overline{X_i} \})^2 = 1 - y_i \cdot \text{sign} \{ \overline{W} \cdot \overline{X_i} \} \tag{1.7}$$И фигура 1.6 выглядит следующим образом:Фигура 1.6 кажется мне неясной. Что показывает фигура 1.6 и как она связана с тем, что пытается доказать автор?функции-целиподдержка векторного типаперсептронбинарная классификацияпотеря ХинжаПоделитьсяУлучшить этот вопросСледует за нимОтредактировано 23 апреля 2021 г. в 7:53Задано 21 ноября 2020 г. в 13:19Pointer61155 серебряных значков2323 бронзовых значков$\endgroup$2$\begingroup$Привет! Вы не приняли мой ответ. Это потому, что мой ответ был непонятным? Пожалуйста, не стесняйтесь уточнить, я был немного занят, когда писал ответ, но теперь я могу ответить на любые ваши вопросы о ответе$\endgroup$user9947–user99472021-02-04 10:41:08 +00:00CommentedФев 4, 2021 в 10:41$\begingroup$Я также был смущен этим конкретным разделом книги и нашел следующее видео, объясняющее функцию потерь Хинжа. Надеюсь, это может помочь:youtube.com/watch?v=PM2MSAYmzXM$\endgroup$user45643–user456432021-03-24 01:22:13 +00:00CommentedМар 24, 2021 в 1:22Добавить комментарий|2 Ответа2Отсортировано по:Сбросить по умолчаниюНаивысший балл (по умолчанию)Измененный дата (новые первыми)Создан дата (старые первыми)0$\begingroup$Фигура 1.6 изображает, что функция потерь Хинжа, используемая в SVM (Уравнение 1.9):$$L_i^{svm} = \text{max}\{1 - y_i (\overline{W} \cdot \overline{X}_i, 0\} \tag{1.9}$$является смещенной версией

Читать оригинал статьи