Теорема симметрии Адама: характеристика сходимости стохастического оптимизатора Adam

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.06675v1 Тип объявления: кросс Аннотация: Наряду со стандартным методом стохастического градиентного спуска (SGD), оптимизатор Adam, предложенный Кингмой и Ба (2014 г.), вероятно, является наиболее известным методом оптимизации для обучения глубоких нейронных сетей в системах искусственного интеллекта (ИИ). Несмотря на популярность и успех метода Adam, остаётся открытой исследовательской задачей строгое обоснование анализа сходимости даже для класса сильно выпуклых задач минимизации суммы функций (SOP). В одном из основных результатов данной работы мы устанавливаем оценки скорости сходимости Адама относительно числа шагов градиента (скорость сходимости $\nicefrac{1}{2}$ относительно размера шага обучения), размера мини-пакетов (скорость сходимости 1 относительно размера мини-пакета) и параметра второго момента Адама (скорость сходимости 1 относительно расстояния от параметра второго момента до единицы) для класса сильно выпуклых задач SOP. В другом основном результате этой работы, который мы называем \emph{Ad

Полный текст статьи пока не загружен.

Читать оригинал статьи