← Вернуться к списку
Масштабирование крупных моделей MoE (Mixture of Experts) с широким параллелизмом экспертов на системах уровня стойки NVL72
Краткое содержание
Современные рабочие нагрузки ИИ давно вышли за рамки простого обслуживания вывода на одном GPU. Параллелизм моделей, который эффективно распределяет вычисления между множеством графических процессоров, сейчас стал…
Полный текст статьи пока не загружен.