Поскольку активации ReLU также приводят к разреженной сети, обладают ли они таким же свойством «отбора признаков», как и регуляризация L1?

2023-01-21 05:19:32

Краткое содержание

Из книги «Глубокое обучение» (Курвилл, Гудфеллоу, Бенжио): активация ReLU часто «умирает», поскольку один из недостатков выпрямленных линейных единиц заключается в том, что они не могут обучаться с помощью градиентных методов на примерах, для которых их активация равна нулю. Аналогично, регуляризация L1 (в отличие от L2) приводит к разреженной сети. Это показывает, что регуляризация L2 не вызывает разреженность параметров, тогда как регуляризация L1 может это сделать при достаточно большом значении $\alpha$. Свойство разреженности, вызванное регуляризацией L1, широко использовалось в качестве механизма выбора признаков. Несколько вопросов по этим темам: На практике есть ли какой-либо способ или смысл удалять эти «мертвые» нейроны с активацией ReLU? И если наша натренированная сеть хорошо работает со множеством мертвых нейронов, будет ли это означать, что более мелкая сеть является достаточной репрезентацией? Поскольку активации ReLU также приводят к созданию разреженных сетей, обладают ли они таким же свойством «отбора признаков», как и регуляризация L1? Если да, то следует ли из этого, что сигмоидальные или tanh-активации...

Полный текст статьи пока не загружен.

Читать оригинал статьи