Почему PCA хорошо работает при малом сохраняемом дисперсионном коэффициенте?

2019-01-05 04:51:08

Краткое содержание

Я изучаю машинное обучение, просматривая ядра других людей на Kaggle, в частности ядро Mushroom Classification. Автор сначала применил PCA к преобразованной матрице индикаторов. Он использовал только 2 главных компоненты для визуализации позже. Затем я проверил, какой дисперсионный коэффициент он сохранил, и обнаружил, что сохраняется лишь 16% дисперсии. в [18]: pca.explained_variance_ratio_.cumsum() выход [18]: array([0.09412961, 0.16600686]) Но результат теста с 90%-ной точностью показывает, что все работает хорошо. Если дисперсия соответствует информации, то как же ML-модель может работать хорошо, когда теряется столько информации?

Полный текст

Почему работает PCA, несмотря на то, что сохраняется небольшая дисперсия? Задать вопрос

Задано 6 лет, 11 месяцев назад Изменено сегодня Просмотрено 195 раз

Задано 6 лет, 11 месяцев назад

1 $\begingroup$ Я изучаю машинное обучение, просматривая ядро Kaggle других людей, в частности ядро Mushroom Classification. Автор сначала применил PCA к преобразованной матрице индикаторов. Он использовал только 2 главных компоненты для визуализации позже. Затем я проверил, какую дисперсию это сохраняет, и обнаружил, что сохраняется только 16% дисперсии. in [18]: pca.explained_variance_ratio_.cumsum() out[18]: array([0.09412961, 0.16600686]) Но результат теста с 90% точностью показывает, что это работает хорошо. Если дисперсия соответствует информации, то как может работать хорошо ML-модель, когда теряется так много информации? machine-learning principal-component-analysis Поделиться Улучшить этот вопрос Подписаться на редактирование Apr 1, 2021 в 11:15 nbro 43.1k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано Jan 5, 2019 в 4:51 Bicheng 111 1 1 бронзовый значок $\endgroup$ Добавить комментарий | 1 Ответ 1 Отсортировано по: Сбросить по умолчанию Наивысший рейтинг (по умолчанию) Измененная дата (от новых к старым) Созданная дата (от старых к новым) 0 $\begingroup$ Потому что он выбирает как Xtrain, так и Xtest из пространства двух выбранных главных компонентов. Следовательно, точность 90% находится в этом 2D-выбранном пространстве. То, что отношение в PCA соответствует информации, зависит от распределения данных и это неправда вообще. Поделиться Улучшить этот ответ Подписаться на редактирование отредактировано Jan 5, 2019 в 10:43 ответил Jan 5, 2019 в 10:36 OmG 1,896 12 12 серебряные значки 20 20 бронзовые значки $\endgroup$ Добавить комментарий | Вы должны войти в систему, чтобы ответить на этот вопрос Найдите ответ на свой вопрос, задавая его. Задать вопрос Исследуйте связанные вопросы machine-learning principal-component-analysis Смотрите похожие вопросы с этими тегами.

1 $\begingroup$ Я изучаю машинное обучение, просматривая ядро Kaggle других людей, в частности ядро Mushroom Classification. Автор сначала применил PCA к преобразованной матрице индикаторов. Он использовал только 2 главных компоненты для визуализации позже. Затем я проверил, какую дисперсию это сохраняет, и обнаружил, что сохраняется только 16% дисперсии. in [18]: pca.explained_variance_ratio_.cumsum() out[18]: array([0.09412961, 0.16600686]) Но результат теста с 90% точностью показывает, что это работает хорошо. Если дисперсия соответствует информации, то как может работать хорошо ML-модель, когда теряется так много информации? machine-learning principal-component-analysis Поделиться Улучшить этот вопрос Подписаться на редактирование Apr 1, 2021 в 11:15 nbro 43.1k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано Jan 5, 2019 в 4:51 Bicheng 111 1 1 бронзовый значок $\endgroup$ Добавить комментарий |

Читать оригинал статьи