Фазовая диаграмма и динамика собственных значений стохастического градиентного спуска в многослойных нейронных сетях
Краткое содержание
arXiv:2509.01349v2 Тип объявления: замена-перекрёстная Аннотация: Подбор гиперпараметров является одним из ключевых этапов для обеспечения сходимости моделей машинного обучения. Мы утверждаем, что интуиция относительно оптимального выбора гиперпараметров для стохастического градиентного спуска может быть получена путем изучения фазовой диаграммы нейронной сети, где каждая фаза характеризуется специфической динамикой сингулярных значений матриц весов. Вдохновляясь исследованиями неупорядоченных систем, мы начинаем с наблюдения о том, что ландшафт потерь многослойной нейронной сети со среднеквадратичной ошибкой можно интерпретировать как неупорядоченную систему в пространстве признаков, где изучаемые признаки отображаются на мягкие спиновые степени свободы, начальная дисперсия матриц весов интерпретируется как сила беспорядка, а температура задается отношением скорости обучения к размеру пакета данных. По мере обучения модели могут быть идентифицированы три фазы, в которых динамика матриц весов носит качественный характер.
Полный текст статьи пока не загружен.