Почему LLM нуждаются в масштабном распределенном обучении через узлы — если модели помещаются на одном GPU, а уменьшение размера пакета снижает дисперсию градиентов?
Краткое содержание
Почему большим языковым моделям (LLM) требуется массовая распределенная тренировка по узлам — если модели помещаются в одну GPU и увеличение размера пакета лишь уменьшает дисперсию градиентов? tldr: предполагая, что для моделей, которым не нужен шардинг по узлам, почему нам нужна (массовая) распределенная тренировка, если модели (например, CLIP, Chinchilla, даже очень большие GPT, например, CLIP помещается в V100 32GB) помещаются в одну GPU и увеличение размера пакета лишь уменьшает дисперсию градиентов (но не раскрывает больше токенов или обновлений параметров)? Более крупный пакет не обязательно означает, что мы обучаемся на "больше данных/токенах" — или по крайней мере, это не так, если речь идет об оптимизаторах типа SGD. Интуитивно кажется, что если бы у нас был больший размер пакета, то мы имели бы больше токенов для изучения — но зная некоторую теорию оптимизации и то, как на самом деле работают алгоритмы типа SGD, больший размер пакета лишь уменьшает дисперсию градиентов. Поэтому мне не совсем понятно, зачем нужна массовая распределенная тренировка — вообще, если только модель настолько велика, что имеет
Полный текст статьи пока не загружен.