Главная - AST-AIHub

DeepSeek: DeepSeek Prover V2 (deepseek/deepseek-prover-v2) (Точный перевод названия сохранён, поскольку оно является именем собственным.)

2025-04-30 11:38:14

DeepSeek Prover V2 — это модель с 671 миллиардом параметров, предположительно ориентированная на логику и математику. Вероятно, она является улучшенной версией модели DeepSeek-Prover-V1.5. Пока еще немного известно о данной модели, поскольку компания DeepSeek разместила её на платформе Hugging Face ...

Читать оригинал Подробнее

Тестирование производительности больших языковых моделей (LLM) для глобального здравоохранения

2025-04-30 10:33:00

Генеративный ИИ

Читать оригинал Подробнее

Мета: Ллама Гард 4 12B (meta-llama/llama-guard-4-12b)

2025-04-30 01:06:33

Llama Guard 4 — это мультимодальная предварительно обученная модель, основанная на архитектуре Llama 4 Scout и дообученная для классификации безопасности контента. Подобно предыдущим версиям, она способна классифицировать контент как во входных данных языковой модели (классификация запросов), так и ...

Читать оригинал Подробнее

Qwen: Qwen3 30B A3B (бесплатная версия) (qwen/qwen3-30b-a3b)

2025-04-28 22:16:44

Qwen3 — новейшее поколение серии больших языковых моделей Qwen, которое сочетает плотную архитектуру и архитектуру смеси экспертов (MoE), обеспечивая превосходство в области рассуждений, многоязычной поддержки и сложных агентских задач. Уникальная способность переключаться между режимом размышления ...

Читать оригинал Подробнее

Квен: Квэн3 8Б (квэн/квэн3-8б)

2025-04-28 21:43:52

Qwen3-8B — плотная языковая модель с причиной (causal), содержащая 8,2 миллиарда параметров из серии Qwen3, предназначенная как для задач, требующих глубокого анализа, так и эффективного ведения диалогов. Модель поддерживает плавный переход между режимом «мышления», используемым для математики, прог...

Читать оригинал Подробнее

Квен: Квэн3 14Б (бесплатный) (квэн/квэн3-14б)

2025-04-28 21:41:18

Qwen3-14B — плотная языковая модель с причинной структурой, содержащая 14,8 млрд параметров из серии Qwen3, предназначенная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «мышления», используемым для выполнения задач вроде математик...

Читать оригинал Подробнее

Квен: Квэн3 32Б (qwen/qwen3-32b)

2025-04-28 21:32:25

Qwen3-32B — плотная языковая модель с причинной структурой, содержащая 32,8 миллиарда параметров, относящаяся к серии Qwen3 и оптимизированная как для сложных рассуждений, так и эффективного ведения диалога. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполне...

Читать оригинал Подробнее

Qwen: Qwen3 235B A22B (бесплатный) (qwen/qwen3-235b-a22b)

2025-04-28 21:29:17

Qwen3-235B-A22B — это модель типа смесь-экспертов (MoE) с параметрами 235 миллиардов, разработанная компанией Qwen, активирующая 22 миллиарда параметров за один проход прямого распространения. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполнения сложных рас...

Читать оригинал Подробнее

TNG: DeepSeek R1T Chimera (бесплатная версия) (tngtech/deepseek-r1t-chimera)

2025-04-27 13:34:35

DeepSeek-R1T-Chimera создается путем объединения моделей DeepSeek-R1 и DeepSeek-V3 (версия от 03/24), объединяя способности рассуждения модели R1 с улучшенной эффективностью обработки токенов версии V3. Модель основана на архитектуре трансформера DeepSeek-MoE и оптимизирована для общих задач генерац...

Читать оригинал Подробнее

THUDM: GLM Z1 Рефлексия 32B (thudm/glm-z1-rumination-32b)

2025-04-25 17:18:15

THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкре...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)