Кто-нибудь использовал ONNX Runtime (ORT) + CUDA для многоязычных моделей эмбеддингов (например, LaBSE) на GPU?
Краткое содержание
У меня есть проект, в котором мы должны использовать LLM для построения матриц семантической близости. Я делаю это в PySpark с помощью AWS EMR и модели labse от Google. Я конвертировал модель labse в формат ONNX Runtime, чтобы облегчить мой ML-пайплайн в Spark без установки PyTorch, TensorFlow или Sentence-Transformers. Мои эксперименты пока успешны: я загружаю модель labse в ML-пайплайн из S3 и генерирую матрицы близости. Но я подумал, что если использовать GPU-инстанс EMR и CUDA-инференс в ONNX, то генерация эмбеддингов ускорится. Однако оказалось, что время выполнения моего PySpark-приложения абсолютно одинаковое при использовании обычного инстанса EMR (например, r.2xlarge) и GPU-инстанса (например, g4dn.4xlarge). Разницы вообще нет, и теперь я думаю: где, черт возьми, я ошибся? Буду благодарен за любые советы и рекомендации. Размер датасета: 2 миллиона строк. отправил(а) u/OneWolverine307[ссылка][комментарии]
Полный текст статьи пока не загружен.