Мы выложили в открытый доступ Chaperone-Thinking-LQ-1.0 — модель DeepSeek-R1-32B, дообученную с использованием 4-битного GPTQ + QLoRA, которая показывает 84% на MedQA при объеме ~20 ГБ[N]

2026-04-21 20:07:45

Краткое содержание

Всем привет! Мы только что выложили нашу модель рассуждений, Chaperone-Thinking-LQ-1.0, в открытый доступ на Hugging Face. Она построена на базе DeepSeek-R1-Distill-Qwen-32B, но выходит далеко за рамки простой квантизации — вот что мы сделали на самом деле: Конвейер (рабочий процесс): Квантизация 4-битным методом GPTQ — сжатие модели примерно с 60 ГБ до ~20 ГБ Обучение с учетом квантизации (QAT) через GPTQ с калибровкой для минимизации потери точности Тонкая настройка QLoRA на медицинских и научных корпусах Удален адаптивный слой идентичности для прозрачности — модель корректно относит свою архитектуру к оригинальной работе DeepSeek Результаты: Бенчмарк | Chaperone-Thinking-LQ-1.0 | DeepSeek-R1 | OpenAI-o1-1217 ---|---|---|--- MATH-500 | 91.9 | 97.3 | 96.4 MMLU | 85.9 | 90.8 | 91.8 AIME 2024 | 66.7 | 79.8 | 79.2 GPQA Diamond | 56.7 | 71.5 | 75.7 MedQA | 84% | — | MedQA — это главное достижение: точность 84%, в пределах 4 баллов от GPT-4o (~88%) при использовании модели, которая помещается на один GPU L40/L40s. Скорость: Пропускная способность 36.86 токен/с против 22.84 токена/с для базовой DeepSeek-R1-32B — примерно в 1,6 раза быстрее при ~43% более низкой медианной задержке. Почему мы это сделали: Нам нужна была причина...

Полный текст статьи пока не загружен.

Читать оригинал статьи