Как LSTM и GRU преодолевают проблему исчезающего градиента?

06.04.2020 19:42

Краткое содержание

Я смотрю видео "Рекуррентные нейронные сети (RNN) | RNN LSTM | Глубинное обучение Туториал | Туториал Tensorflow | Edureka", где автор говорит, что архитектуры LSTM и GRU помогают уменьшить проблему исчезающего градиента. Как LSTM и GRU предотвращают проблему исчезающего градиента?

Полный текст

Как LSTM и GRU решают проблему исчезающего градиента? Задать вопрос

Задано 5 лет, 7 месяцев назад Изменено сегодня Просмотрено 503 раза

Задано 5 лет, 7 месяцев назад

3 $\begingroup$ Я смотрю видео «Рекуррентные нейронные сети (RNN) | RNN LSTM | Глубокое обучение Туториал | Туториал TensorFlow | Edureka», где автор говорит, что архитектуры LSTM и GRU помогают уменьшить проблему исчезающего градиента. Как именно LSTM и GRU предотвращают исчезновение градиента? обработка естественного языка долгосрочная краткосрочная память исчезающий градиент Share Improve this question Follow отредактировано 3 часа назад Mr. AI Cool 907 1 1 серебряная медаль 18 18 бронзовая медаль задано 6 апреля 2020 г. в 19:42 DRV 1,853 3 3 золотая медаль 16 16 серебряных медалей 21 21 бронзовая медаль ответил 6 апреля 2020 г. в 19:42 DRV 1,853 3 3 золотые медали 16 16 серебряные медали 21 21 бронзовые медали $\endgroup$ Добавить комментарий | 3 Ответа 3 Сортировка по: Сбросить по умолчанию Наивысший рейтинг (по умолчанию) Измененная дата (от новых к старым) Созданная дата (от старых к новым) 0 $\begingroup$ LSTMs решают проблему с использованием уникальной аддитивной структуры градиента, которая включает прямой доступ к активациям "забывающего" вентиля, позволяя сети побуждать желаемое поведение от градиента ошибки путем частых обновлений вентилей на каждом шаге обучения процесса. Share Improve this answer Follow отредактировано 25 мая 2021 г. в 10:00 Saurav Maheshkar 750 1 1 золотая медаль 8 8 серебряных медалей 20 20 бронзовых медалей ответил 21 мая 2021 г. в 12:59 Murtaza chohan 1 $\endgroup$ Добавить комментарий | 0 $\begingroup$ LSTM передает веса предыдущего состояния скрытого слоя к текущему состоянию. Это простое, но эффективное решение помогает им минимизировать исчезающий градиент, потому что теперь все состояния имеют некоторую информацию обо всех предыдущих состояниях. Представьте себе, что вы торгуете и у вас есть все цифры за прошлый год, что, безусловно, поможет принимать лучшие решения! Я настоятельно рекомендую эту статью, которая очень хорошо объясняет концепцию. Share Improve this answer Follow ответил 16 февраля 2023 г. в 3:55 Long Luu 1,180 4 4 серебряные медали 20 20 бронзовые медали $\endgroup$ 3 $\begingroup$ Можете ли вы прояснить, какие части этой статьи полезны для понимания того, как LSTM избегает исчезающего градиента? Я искал ее по словам "vanish", "gradient" и "derivative" и ничего не нашел. $\endgroup$ Sycorax – Sycorax 2023-03-18 18:33:56 +00:00 Комментировано 18 марта 2023 г. в 18:33 $\begingroup$ "долгосрочные зависимости" - это ключевое слово. Это то же самое, что и "исчезающий градиент". Зависимости требуют от сети многократного обратного распространения ошибки, поэтому "исчезает" и появляется. $\endgroup$ Long Luu – Long Luu 2023-03-19 01:27:48 +00:00 Комментировано 19 марта 2023 г. в 1:27 $\begingroup$ Возможно, вы могли бы отредактировать свой ответ, чтобы подробно объяснить, как механизм LSTM преодолевает проблему исчезающего градиента. Как есть, связь между ними не совсем ясна. $\endgroup$ Sycorax – Sycorax 2023-03-30 14:58:53 +00:00 Комментировано 30 марта 2023 г. в 14:58 Добавить комментарий | 0 $\begingroup$ Контролируя поток информации и градиентов, LSTM смягчают проблему исчезающего градиента, которая часто встречается в традиционных RNN. Вентиляционные механизмы позволяют LSTM учиться и сохранять важную информацию на протяжении длинных последовательностей. Поскольку вентили дифференцируемы, их веса обучаемы. Это означает, что вентили используют функции активации сигмоиды и тангенс гиперболы, которые дифференцируемы и имеют ограниченные диапазоны выходных значений. Эта характеристика гарантирует, что градиенты могут проходить через вентили без того, чтобы они становились слишком маленькими или слишком большими. Операции "забывающего" вентиля, входного вентиля и выходного вентиля в LSTM включают поэлементное умножение (герамитровый продукт) между значениями вентилей и другими векторами/матрицами. Поэлементное умножение сохраняет величину и направление градиентов, что позволяет информации течь без слишком быстрого уменьшения. Ячейка памяти позволяет сети избирательно сохранять или отбрасывать информацию на протяжении нескольких временных шагов. Эта способность запоминать или забывать информацию имеет решающее значение для улавливания долгосрочных зависимостей в последовательных данных. Таким образом, контролируя поток градиента, вентиляторы...

Читать оригинал статьи