Оптимизация нулевого порядка находит плоские минимумы
Краткое содержание
arXiv:2506.05454v2 Тип объявления: замена-перекрёстная публикация Аннотация: Методы нулевого порядка широко применяются в приложениях машинного обучения, когда вычисление градиентов невозможно или дорого обходится, такие как атаки чёрного ящика, обучение с подкреплением и дообучение языковых моделей. Существующая теория оптимизации сосредоточена на сходимости к произвольной стационарной точке, однако меньше известно о неявной регуляризации, обеспечивающей детальную характеристику тех конкретных решений, к которым в конечном итоге приходят алгоритмы. Мы показываем, что оптимизация нулевого порядка с использованием стандартного двухточечного оценщика благоприятствует решениям с малым следом гессиана, что широко используется в предыдущих работах для различения между острыми и плоскими минимумами. Далее мы приводим оценки скорости сходимости методов нулевого порядка к приближённым плоским минимумам для выпуклых и достаточно гладких функций, где плоские минимумы определяются как минимизаторы, достигающие наименьшего значения следа гессиана среди всех оптимальных решений. Эксперименты на задаче бинарной классификации...
Полный текст статьи пока не загружен.