← Вернуться к списку
«Облачная инфраструктура для вывода моделей с поддержкой нескольких арендаторов (multi-tenant inference cloud) — следующая большая битва в сфере ИИ-инфраструктуры. Есть ли кто-то, кто действительно решает проблему изоляции?»
Краткое содержание
CFO Nebius недавно назвал облачные вычисления многопоточной обработки запросов (multi-tenant inference cloud) ключевым направлением после сильного отчета за третий квартал. Но никто не хочет говорить о самой сложной части — изоляции графического процессора (GPU). Как запустить несколько моделей/клиентов на одном GPU без следующих проблем: • Соседей-потребителей ресурсов («noisy neighbors»), ухудшающих задержку? • Плохого коэффициента утилизации от избыточной резервируемости ресурсов? • Медленных и дорогих холодных стартов? Это чисто аппаратная проблема или есть решение на уровне программного обеспечения во время выполнения (runtime)? Или мы навсегда застряли с выделенными GPU?
Полный текст статьи пока не загружен.