← Вернуться к списку

OCR: дообученная малая языковая модель с публичным доступом. Доступна на Hugging Face

Краткое содержание

Всем привет! Мы только что сделали DharmaOCR открытым на Hugging Face. Модели и наборы данных полностью публичные, бесплатные для использования и экспериментов. Мы также опубликовали статью, документирующую весь опыт, стоящий за этим проектом, для тех, кто хочет углубиться в методологию. Основной вопрос, на который мы пытались ответить: в какой степени специализированная малая языковая модель может превзойти крупнейшие мировые модели, оставаясь при этом конкурентоспособной по стоимости в масштабе? Мы дообучили (fine-tuned) открытые малые языковые модели (SLM) (параметры 3B и 7B) с использованием SFT + DPO и протестировали их против GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6, Google Document AI, а также открытых альтернатив, таких как OlmOCR, Deepseek-OCR, GLMOCR и Qwen3. Специализированные модели оказались лучшими: 0,925 (7B) и 0,911 (3B). DPO, использующий собственные выходы модели в качестве отклоненных примеров, снизил частоту сбоев на 87,6%. Квантование AWQ снижает стоимость инференса (вывода) на страницу примерно на 22% при незначительном влиянии на производительность. Модели и наборы данных: https://huggingface.co/Dharma-AI Полная статья: https://arxiv.org/abs/260

Полный текст статьи пока не загружен.