ParaDySe: Параллельная стратегия переключения для динамических длин последовательностей в трансформере
Краткое содержание
arXiv:2511.13198v1 Тип объявления: новый Аннотация: Динамические последовательности переменной длины широко используются при обучении крупных языковых моделей (LLM) на основе архитектуры Transformer. Однако современные фреймворки обучения применяют для таких последовательностей предопределённую статическую параллельную стратегию, что приводит к неэффективному совмещению коммуникаций и параллелизма на коротких последовательностях и к переполнению памяти на длинных. Для решения этих проблем мы предлагаем ParaDySe — новую адаптивную систему переключения параллельных стратегий для динамических последовательностей. ParaDySe позволяет в реальном времени выбирать оптимальную стратегию в соответствии с поступающей на вход последовательностью. Сначала система реализует модульные библиотеки функций для параллельных стратегий с унифицированными спецификациями размещения тензоров, а затем строит учитывающие длину последовательности модели затрат памяти и времени с использованием гибридных методов. Руководствуясь этими моделями затрат, ParaDySe выбирает оптимальные послойные стратегии для динамических последовательностей с помощью эффективного эвристического алгоритма. Интеграция этих методов позволяет ParaDySe дости
Полный текст статьи пока не загружен.