← Вернуться к списку

MACKO: Умножение разреженной матрицы на вектор для низкой разреженности

Краткое содержание

arXiv:2511.13061v1 Тип: новая статья Аннотация: Умножение разреженной матрицы на вектор (SpMV) — это фундаментальная операция при выводе разреженных больших языковых моделей (LLM). Поскольку существующие методы SpMV плохо работают при низкой и неструктурированной разреженности (30-90%), типичной для прореженных LLM, неструктурированное прореживание давало лишь ограниченное сокращение памяти и ускорение. Мы предлагаем MACKO-SpMV — формат и ядро, совместно оптимизированные для GPU, которые снижают накладные расходы на хранение, сохраняя совместимость с моделью выполнения GPU. Это позволяет эффективно выполнять SpMV для неструктурированной разреженности без специализированных аппаратных блоков (например, тензорных ядер) или предварительных вычислений, специфичных для формата. Экспериментальные результаты показывают, что при разреженности 50% MACKO является первым методом, который обеспечивает значительное сокращение памяти в 1.5 раза и ускорение в 1.2-1.5 раза по сравнению с плотным представлением. Ускорение по сравнению с другими базовыми методами SpMV: в 2.8-13.0 раз по сравнению с cuSPARSE, в 1.9-2.6 раза по сравнению с Sputnik и в 2.2-2.5 раза по сравнению с DASP. Применено к Llama2-7B, прореженной с помощью Wanda до разреженности

Полный текст статьи пока не загружен.