Сбросить

Qwen3 — новейшее поколение серии больших языковых моделей Qwen, которое сочетает плотную архитектуру и архитектуру смеси экспертов (MoE), обеспечивая превосходство в области рассуждений, многоязычной поддержки и сложных агентских задач. Уникальная способность переключаться между режимом размышления ...

Qwen3-8B — плотная языковая модель с причиной (causal), содержащая 8,2 миллиарда параметров из серии Qwen3, предназначенная как для задач, требующих глубокого анализа, так и эффективного ведения диалогов. Модель поддерживает плавный переход между режимом «мышления», используемым для математики, прог...

Qwen3-14B — плотная языковая модель с причинной структурой, содержащая 14,8 млрд параметров из серии Qwen3, предназначенная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «мышления», используемым для выполнения задач вроде математик...

Qwen3-32B — плотная языковая модель с причинной структурой, содержащая 32,8 миллиарда параметров, относящаяся к серии Qwen3 и оптимизированная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполне...

Qwen3-235B-A22B — это модель типа смесь-экспертов (MoE) с параметрами 235 миллиардов, разработанная компанией Qwen, активирующая 22 миллиарда параметров за один проход прямого распространения. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполнения сложных рас...

DeepSeek-R1T-Chimera создается путем объединения моделей DeepSeek-R1 и DeepSeek-V3 (версия от 03/24), объединяя способности рассуждения модели R1 с улучшенной эффективностью обработки токенов версии V3. Модель основана на архитектуре трансформера DeepSeek-MoE и оптимизирована для общих задач генерац...

THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкре...

GLM-Z1-9B-0414 — языковая модель с параметрами объёмом 9 миллиардов, разработанная лабораторией THUDM в рамках семейства моделей GLM-4. В её архитектуре использованы методы, изначально применявшиеся для больших моделей серии GLM-Z1: расширенное обучение с подкреплением, выравнивание парных ранжирова...

GLM-4-9B-0414 — языковая модель серии GLM-4 от компании THUDM с количеством параметров 9 миллиардов. Обучена теми же методами подкрепляющего обучения и выравнивания, что и её старшие аналоги с 32 миллиардами параметров. Благодаря этому GLM-4-9B-0414 демонстрирует высокую производительность относител...