Оптимизация нулевого порядка находит плоские минимумы

2025-11-12 05:00:00

Краткое содержание

arXiv:2506.05454v2 Тип объявления: замена-перекрёстная публикация Аннотация: Методы нулевого порядка широко применяются в приложениях машинного обучения, когда вычисление градиентов невозможно или дорого обходится, такие как атаки чёрного ящика, обучение с подкреплением и дообучение языковых моделей. Существующая теория оптимизации сосредоточена на сходимости к произвольной стационарной точке, однако меньше известно о неявной регуляризации, обеспечивающей детальную характеристику тех конкретных решений, к которым в конечном итоге приходят алгоритмы. Мы показываем, что оптимизация нулевого порядка с использованием стандартного двухточечного оценщика благоприятствует решениям с малым следом гессиана, что широко используется в предыдущих работах для различения между острыми и плоскими минимумами. Далее мы приводим оценки скорости сходимости методов нулевого порядка к приближённым плоским минимумам для выпуклых и достаточно гладких функций, где плоские минимумы определяются как минимизаторы, достигающие наименьшего значения следа гессиана среди всех оптимальных решений. Эксперименты на задаче бинарной классификации...

Полный текст статьи пока не загружен.

Читать оригинал статьи