Адаптивная параметрическая активация: унификация и обобщение функций активации для различных задач
Краткое содержание
arXiv:2407.08567v3 Тип объявления: замена-перекрёстная публикация Аннотация: Функция активации играет ключевую роль в оптимизации моделей, однако оптимальный выбор до сих пор остаётся неясным. Например, сигмоидная активация фактически является стандартной функцией активации в сбалансированных классификационных задачах, однако она оказывается неподходящей в несбалансированной классификации из-за смещения в сторону часто встречающихся классов. В данной работе мы глубже исследуем этот феномен путём проведения всестороннего статистического анализа промежуточных слоёв и слоев классификации как в сбалансированных, так и в несбалансированных сетях. Мы эмпирически показываем, что согласование функции активации с распределением данных улучшает производительность как в сбалансированных, так и в несбалансированных задачах. С этой целью мы предлагаем функцию адаптивной параметрической активации (APA), новую универсальную функцию активации, объединяющую большинство распространённых функций активации в единой формуле. APA применима как в промежуточных слоях, так и в слоях внимания, значительно превосходя современные функции активации.
Полный текст статьи пока не загружен.