DeToNATION: Развязанное сетевое обучение Torch с учетом топологии на взаимосвязанных онлайн-узлах

2025-11-18 05:00:00

Краткое содержание

arXiv:2502.06728v4 Тип объявления: replace Аннотация: Обучение больших моделей нейронных сетей требует значительных вычислительных ресурсов, часто распределенных между несколькими узлами и ускорителями. Недавние исследования показывают, что может быть достаточно обмениваться только быстро меняющимися компонентами градиентов, аккумулируя момент локально (Decoupled Momentum, или DeMo). Однако DeMo предполагает, что модель помещается на одном ускорителе. Мы смягчаем это предположение и представляем FlexDeMo, при котором узлы полностью шардируют параметры модели локально между различными ускорителями, в то время как межузловая связь сокращается за счет синхронизации только быстро меняющихся компонентов вместо полных градиентов — в результате получается гибридная стратегия обучения с шардированным параллелизмом по данным. Мы также представляем фреймворк, обозначенный как DeToNATION, который обобщает DeMo, FlexDeMo и другие популярные схемы распределенного обучения, такие как DiLoCo, — вводя новые варианты схем репликации и оспаривая выборы, сделанные в DeMo. Наши результа

Полный текст статьи пока не загружен.

Читать оригинал статьи