Нормализация динамики внимания
Краткое содержание
arXiv:2510.22026v2 Тип объявления: замена-перекрёстная публикация Аннотация: Мы исследуем влияние схем нормализации на представления токенов в глубоких трансформерах. Моделируя эволюцию представлений как взаимодействие частиц на сфере, мы показываем, что нормализация действует как форма регулирования скорости. Этот подход позволяет провести унифицированный анализ нескольких схем — включая Post-LN, Pre-LN, Mix-LN, Peri-LN, nGPT — раскрывая, каким образом они влияют на динамику кластеризации и коллапс представлений. Наша структура проясняет, как различные схемы формируют представления токенов через слои сети и даёт обоснованные основания для сравнения их эффективности, выделяя Peri-LN как особенно эффективный выбор.
Полный текст статьи пока не загружен.