Вычислительное преимущество глубины: обучение высокоразмерных иерархических функций методом градиентного спуска

2025-11-17 05:00:00

Краткое содержание

arXiv:2502.13961v4 Тип объявления: замена-перекрёстная Аннотация: Понимание преимуществ глубоких нейронных сетей, обучаемых методом градиентного спуска (GD), по сравнению с неглубокими моделями остаётся открытой теоретической задачей. В данной работе мы вводим класс целевых функций (одно- и многомерные иерархические гауссовы цели), включающий иерархию размерностей латентных подпространств. Эта структура позволяет аналитически исследовать динамику обучения и обобщающую способность глубоких сетей относительно неглубоких моделей в пределе высокой размерности. Конкретнее, наша основная теорема показывает, что обучение признаков методом GD последовательно уменьшает эффективную размерность, преобразуя высокорезмерную проблему в последовательность низкорезмерных проблем. Это позволяет изучать целевую функцию значительно меньшим числом выборок по сравнению с неглубокими сетями. Хотя результаты доказаны в контролируемой учебной обстановке, мы также рассматриваем более распространённые процедуры обучения и утверждаем, что они изучают

Полный текст статьи пока не загружен.

Читать оригинал статьи