← Вернуться к списку

Нейротермодинамика: энтропийные силы в глубоком и универсальном обучении представлений

Краткое содержание

arXiv:2505.12387v3 Тип объявления: замена Аннотация: В связи с быстрым открытием возникающих явлений в глубоком обучении и больших языковых моделях возникла острая необходимость понимания их причин. Здесь мы предлагаем строгую теорию энтропийной силы для объяснения динамики обучения нейронных сетей, тренируемых методом стохастического градиентного спуска (SGD) и его модификациями. Основываясь на теории параметрической симметрии и ландшафте потерь, обусловленном энтропией, мы показываем, что обучение представлений существенно управляется возникающими энтропийными силами, порождаемыми случайностью и обновлениями в дискретном времени. Эти силы систематически нарушают непрерывную параметрическую симметрию и сохраняют дискретную, приводя к ряду явлений балансировки градиентов, аналогичных свойству равного распределения энергии в тепловых системах. Данные явления, в свою очередь, (а) объясняют универсальное согласование представлений между моделями ИИ и приводят к доказательству гипотезы Платонического представления, и (б) разрешают кажущееся противоречие...

Полный текст статьи пока не загружен.