Автоматически сжимающиеся сети
Краткое содержание
arXiv:2506.09714v3 Тип объявления: замена Аннотация: Глубокие нейронные сети с короткими остаточными связями продемонстрировали выдающийся успех во многих областях, однако увеличение глубины часто приводит к вычислительной избыточности без соответствующего улучшения качества представления. Мы предлагаем авто-компрессирующие сети (Auto-Compressing Networks — ACN), архитектурный вариант, в котором традиционные короткие остаточные связи заменяются аддитивными длинными прямыми соединениями от каждого слоя непосредственно к выходу. Анализируя уникальные динамические свойства, вызванные данным изменением архитектуры, мы выявляем уникальное свойство, которое называем авто-компрессией — способность сети естественным образом сжимать информацию в процессе обучения методом градиентного спуска исключительно благодаря особенностям своей структуры. Благодаря авто-компрессии информация динамически «перемещается» в ранние слои в ходе обучения, улучшая качество их представлений и демонстрируя потенциальную избыточность глубоких слоев. Теоретически показано, что данное свойство возникает вследствие послойной организации процесса обучения.
Полный текст статьи пока не загружен.