TurboOCR: 270–1200 img/s OCR с Paddle + TensorRT (C++/CUDA, FP16) [P]
Краткое содержание
У меня было около 940 000 PDF для обработки. Запуск VLM над миллионом страниц медленный и дорогой, и этот разрыв только увеличивается по мере того, как OCR переходит к подходам на основе трансформеров и VLM. Они отличны для сложного понимания, но пропускная способность и стоимость могут стать узким местом при масштабировании. PaddleOCR (не версия с VL), по моему мнению, лучшая не-VLM открытая OCR, обрабатывал около 15 img/s на моей RTX 5090, что все еще было слишком медленно. PaddleOCR-VL двигался со скоростью 2 img/s с vLLM. PaddleOCR работает однопоточном Python с FP32 инференсом и без слияния ядер. Turbo-OCR заменяет это на C++/CUDA, FP16 TensorRT, слияние ядер, пакетное распознавание и многопоточная пулинг конвейера потоков. Он принимает изображения и PDF через HTTP/gRPC и возвращает ограничивающие рамки, текст и области макета (PP-DocLayoutV3, 25 классов). Макет можно переключать по запросу и добавляет всего около 20% к времени инференса. Результаты: 270 img/s на страницах с большим количеством текста без макета, более 1200 на разреженных. Хорошо работает для реального времени RAG, когда вам нужен документ
Полный текст статьи пока не загружен.