Сбросить

Coder-Large — это потомок модели Qwen 2.5-Instruct с параметрами объёмом 32 млрд единиц, прошедший дополнительное обучение на свободно лицензированных репозиториях GitHub, наборе данных CodeSearchNet и синтетическом корпусе исправлений ошибок. Модель поддерживает контекстное окно размером до 32К ток...

Virtuoso-Medium-v2 — это модель объёмом 32 млрд параметров, дистиллированная из логитов DeepSeek-v3 и объединённая обратно на ядро Qwen 2.5, что позволило создать более чёткую и фактологичную версию оригинальной модели Virtuoso Medium. Команда собрала около 1,1 миллиарда токенов логита и применила м...

Arcee Blitz — это плотная модель с 24 миллиардами параметров, дистиллированная от DeepSeek и построенная на архитектуре Mistral для повседневного общения. Пиплайн дистилляции плюс дообучения сокращает вычислительные затраты, сохраняя рассуждения в стиле DeepSeek, благодаря чему Blitz превосходит дру...

Phi-4-reasoning-plus — улучшенная модель от Microsoft с параметрами размером 14 миллиардов, прошедшая дообучение на основе модели Phi-4 с дополнительным усилением обучения с подкреплением для повышения точности выполнения задач по математике, естественным наукам и коду. Она использует такую же плотн...

Phi-4-reasoning — это плотный декодер-трансформер с 14 миллиардами параметров, разработанный компанией Microsoft путём тонкой настройки модели Phi-4 для улучшения возможностей сложного рассуждения. Модель сочетает контролируемую тонкую настройку на цепочках мыслей (chain-of-thought traces) и обучени...

Qwen3-0.6B — облегчённая языковая модель серии Qwen3 с объёмом параметров 0,6 миллиарда, поддерживающая как общие диалоги, так и структурное рассуждение благодаря архитектуре двойного режима («мышление / отсутствие мышления»). Несмотря на небольшой размер, она поддерживает длинные контексты до 32 76...

Mercury Coder — первая диффузионная большая языковая модель (dLLM). Применяя революционный подход дискретной диффузии, эта модель работает в 5–10 раз быстрее даже оптимизированных по скорости моделей вроде Claude 3.5 Haiku и GPT-4o Mini, при этом демонстрируя сопоставимую производительность. Высокая...

Qwen3-1.7B — компактная плотная языковая модель серии Qwen3 с количеством параметров 1,7 миллиарда, поддерживающая двойную режимность работы: эффективный диалоговый режим («без размышлений») и продвинутый режим рассуждений («с размышлениями»). Несмотря на небольшой размер, она поддерживает контекст ...