DeepSeek Prover V2 — это модель с 671 миллиардом параметров, предположительно ориентированная на логику и математику. Вероятно, она является улучшенной версией модели DeepSeek-Prover-V1.5. Пока еще немного известно о данной модели, поскольку компания DeepSeek разместила её на платформе Hugging Face ...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 74380
Генеративный ИИ
Llama Guard 4 — это мультимодальная предварительно обученная модель, основанная на архитектуре Llama 4 Scout и дообученная для классификации безопасности контента. Подобно предыдущим версиям, она способна классифицировать контент как во входных данных языковой модели (классификация запросов), так и ...
Qwen3 — новейшее поколение серии больших языковых моделей Qwen, которое сочетает плотную архитектуру и архитектуру смеси экспертов (MoE), обеспечивая превосходство в области рассуждений, многоязычной поддержки и сложных агентских задач. Уникальная способность переключаться между режимом размышления ...
Qwen3-8B — плотная языковая модель с причиной (causal), содержащая 8,2 миллиарда параметров из серии Qwen3, предназначенная как для задач, требующих глубокого анализа, так и эффективного ведения диалогов. Модель поддерживает плавный переход между режимом «мышления», используемым для математики, прог...
Qwen3-14B — плотная языковая модель с причинной структурой, содержащая 14,8 млрд параметров из серии Qwen3, предназначенная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «мышления», используемым для выполнения задач вроде математик...
Qwen3-32B — плотная языковая модель с причинной структурой, содержащая 32,8 миллиарда параметров, относящаяся к серии Qwen3 и оптимизированная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполне...
Qwen3-235B-A22B — это модель типа смесь-экспертов (MoE) с параметрами 235 миллиардов, разработанная компанией Qwen, активирующая 22 миллиарда параметров за один проход прямого распространения. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполнения сложных рас...
DeepSeek-R1T-Chimera создается путем объединения моделей DeepSeek-R1 и DeepSeek-V3 (версия от 03/24), объединяя способности рассуждения модели R1 с улучшенной эффективностью обработки токенов версии V3. Модель основана на архитектуре трансформера DeepSeek-MoE и оптимизирована для общих задач генерац...
THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкре...