Харли: Использование недостаточно задействованных ресурсов при обслуживании больших языковых моделей с помощью задач тонкой настройки
Краткое содержание
arXiv:2511.11729v1 Тип анонса: cross Аннотация: Крупные языковые модели (LLM) всё чаще развертываются в рамках парадигмы «Модель как услуга» (MaaS). Для соответствия строгим требованиям к качеству обслуживания (QoS) существующие системы обслуживания LLM разделяют фазы префилла и декодирования при выводе. Однако инстансы декодирования часто сталкиваются с низкой утилизацией GPU из-за их ограниченного пропускной способностью памяти характера и недостаточного батчинга в динамических рабочих нагрузках, что приводит к неполному использованию вычислительных ресурсов. Мы представляем Harli, систему обслуживания, которая повышает утилизацию GPU путем совместного размещения задач параметрически-эффективного тонкого обучения (PEFT) с инстансами декодирования LLM. Задачи PEFT являются ограниченными по вычислениям и эффективными по памяти, что делает их идеальными кандидатами для безопасного совместного размещения. В частности, Harli решает ключевые проблемы — ограниченную память и непредсказуемые interference — с помощью трех компонентов: унифицированного аллокатора памяти для повторного использования памяти в runtime, двухэтапного предиктора задержек для моделирования задержки декодирования и максимизации пропускной способности с гарантированным QoS.
Полный текст статьи пока не загружен.