Сбросить

Qwen3-0.6B — облегчённая языковая модель серии Qwen3 с объёмом параметров 0,6 миллиарда, поддерживающая как общие диалоги, так и структурное рассуждение благодаря архитектуре двойного режима («мышление / отсутствие мышления»). Несмотря на небольшой размер, она поддерживает длинные контексты до 32 76...

Mercury Coder — первая диффузионная большая языковая модель (dLLM). Применяя революционный подход дискретной диффузии, эта модель работает в 5–10 раз быстрее даже оптимизированных по скорости моделей вроде Claude 3.5 Haiku и GPT-4o Mini, при этом демонстрируя сопоставимую производительность. Высокая...

Qwen3-1.7B — компактная плотная языковая модель серии Qwen3 с количеством параметров 1,7 миллиарда, поддерживающая двойную режимность работы: эффективный диалоговый режим («без размышлений») и продвинутый режим рассуждений («с размышлениями»). Несмотря на небольшой размер, она поддерживает контекст ...

Qwen3-4B — это плотная языковая модель с четырьмя миллиардами параметров из серии Qwen3, предназначенная для поддержки как общих, так и ресурсоёмких задач, связанных с рассуждениями. Модель предлагает двойную архитектуру — режимы «мышления» и «немышления», обеспечивающие динамическое переключение ме...

DeepSeek AI выпускает DeepSeek-Prover-V2 — открытую нейросеть (LLM), предназначенную для доказательства теорем в Lean 4. Она применяет рекурсивный поиск доказательств совместно с использованием DeepSeek-V3 для тренировочных данных и подкрепляющего обучения, достигая наилучших результатов на наборе M...

Версия 14b серии InternVL3. Серия передовых многофункциональных крупномасштабных языковых моделей (MLLM), демонстрирующая превосходную общую производительность. В сравнении с InternVL 2.5, InternVL3 обладает превосходными возможностями многофункционального восприятия и логического вывода, а также ра...

Версия 2b серии моделей InternVL3 обеспечивает еще большую скорость вывода и весьма разумную производительность. Это передовая серия мультимодальных больших языковых моделей (MLLM), демонстрирующая превосходную общую производительность. По сравнению с InternVL 2.5, InternVL3 демонстрирует улучшенные...

DeepSeek Prover V2 — это модель с 671 миллиардом параметров, предположительно ориентированная на логику и математику. Вероятно, она является улучшенной версией модели DeepSeek-Prover-V1.5. Пока еще немного известно о данной модели, поскольку компания DeepSeek разместила её на платформе Hugging Face ...

Llama Guard 4 — это мультимодальная предварительно обученная модель, основанная на архитектуре Llama 4 Scout и дообученная для классификации безопасности контента. Подобно предыдущим версиям, она способна классифицировать контент как во входных данных языковой модели (классификация запросов), так и ...