Вычислительное преимущество глубины: обучение высокоразмерных иерархических функций методом градиентного спуска
Краткое содержание
arXiv:2502.13961v4 Тип объявления: замена-перекрёстная Аннотация: Понимание преимуществ глубоких нейронных сетей, обучаемых методом градиентного спуска (GD), по сравнению с неглубокими моделями остаётся открытой теоретической задачей. В данной работе мы вводим класс целевых функций (одно- и многомерные иерархические гауссовы цели), включающий иерархию размерностей латентных подпространств. Эта структура позволяет аналитически исследовать динамику обучения и обобщающую способность глубоких сетей относительно неглубоких моделей в пределе высокой размерности. Конкретнее, наша основная теорема показывает, что обучение признаков методом GD последовательно уменьшает эффективную размерность, преобразуя высокорезмерную проблему в последовательность низкорезмерных проблем. Это позволяет изучать целевую функцию значительно меньшим числом выборок по сравнению с неглубокими сетями. Хотя результаты доказаны в контролируемой учебной обстановке, мы также рассматриваем более распространённые процедуры обучения и утверждаем, что они изучают
Полный текст статьи пока не загружен.