Сбросить

Qwen3-1.7B — компактная плотная языковая модель серии Qwen3 с количеством параметров 1,7 миллиарда, поддерживающая двойную режимность работы: эффективный диалоговый режим («без размышлений») и продвинутый режим рассуждений («с размышлениями»). Несмотря на небольшой размер, она поддерживает контекст ...

Qwen3-4B — это плотная языковая модель с четырьмя миллиардами параметров из серии Qwen3, предназначенная для поддержки как общих, так и ресурсоёмких задач, связанных с рассуждениями. Модель предлагает двойную архитектуру — режимы «мышления» и «немышления», обеспечивающие динамическое переключение ме...

DeepSeek AI выпускает DeepSeek-Prover-V2 — открытую нейросеть (LLM), предназначенную для доказательства теорем в Lean 4. Она применяет рекурсивный поиск доказательств совместно с использованием DeepSeek-V3 для тренировочных данных и подкрепляющего обучения, достигая наилучших результатов на наборе M...

Версия 14b серии InternVL3. Серия передовых многофункциональных крупномасштабных языковых моделей (MLLM), демонстрирующая превосходную общую производительность. В сравнении с InternVL 2.5, InternVL3 обладает превосходными возможностями многофункционального восприятия и логического вывода, а также ра...

Версия 2b серии моделей InternVL3 обеспечивает еще большую скорость вывода и весьма разумную производительность. Это передовая серия мультимодальных больших языковых моделей (MLLM), демонстрирующая превосходную общую производительность. По сравнению с InternVL 2.5, InternVL3 демонстрирует улучшенные...

DeepSeek Prover V2 — это модель с 671 миллиардом параметров, предположительно ориентированная на логику и математику. Вероятно, она является улучшенной версией модели DeepSeek-Prover-V1.5. Пока еще немного известно о данной модели, поскольку компания DeepSeek разместила её на платформе Hugging Face ...

Llama Guard 4 — это мультимодальная предварительно обученная модель, основанная на архитектуре Llama 4 Scout и дообученная для классификации безопасности контента. Подобно предыдущим версиям, она способна классифицировать контент как во входных данных языковой модели (классификация запросов), так и ...

Qwen3 — новейшее поколение серии больших языковых моделей Qwen, которое сочетает плотную архитектуру и архитектуру смеси экспертов (MoE), обеспечивая превосходство в области рассуждений, многоязычной поддержки и сложных агентских задач. Уникальная способность переключаться между режимом размышления ...

Qwen3-8B — плотная языковая модель с причиной (causal), содержащая 8,2 миллиарда параметров из серии Qwen3, предназначенная как для задач, требующих глубокого анализа, так и эффективного ведения диалогов. Модель поддерживает плавный переход между режимом «мышления», используемым для математики, прог...