Главная - AST-AIHub

Квен: Квэн3 0,6 млрд (kvn/kven3-0,6b-04-28)

2025-04-30 20:05:26

Qwen3-0.6B — облегчённая языковая модель серии Qwen3 с объёмом параметров 0,6 миллиарда, поддерживающая как общие диалоги, так и структурное рассуждение благодаря архитектуре двойного режима («мышление / отсутствие мышления»). Несмотря на небольшой размер, она поддерживает длинные контексты до 32 76...

Читать оригинал Подробнее

Инициация: Меркьюри Кодер (инициация/меркьюри-кодер)

2025-04-30 17:24:40

Mercury Coder — первая диффузионная большая языковая модель (dLLM). Применяя революционный подход дискретной диффузии, эта модель работает в 5–10 раз быстрее даже оптимизированных по скорости моделей вроде Claude 3.5 Haiku и GPT-4o Mini, при этом демонстрируя сопоставимую производительность. Высокая...

Читать оригинал Подробнее

Квен: Квэн3 1,7B (qwen/qwen3-1,7b)

2025-04-30 16:43:08

Qwen3-1.7B — компактная плотная языковая модель серии Qwen3 с количеством параметров 1,7 миллиарда, поддерживающая двойную режимность работы: эффективный диалоговый режим («без размышлений») и продвинутый режим рассуждений («с размышлениями»). Несмотря на небольшой размер, она поддерживает контекст ...

Читать оригинал Подробнее

Квен: Квэн3 4Б (бесплатный) (квэн/квэн3-4б)

2025-04-30 16:38:24

Qwen3-4B — это плотная языковая модель с четырьмя миллиардами параметров из серии Qwen3, предназначенная для поддержки как общих, так и ресурсоёмких задач, связанных с рассуждениями. Модель предлагает двойную архитектуру — режимы «мышления» и «немышления», обеспечивающие динамическое переключение ме...

Читать оригинал Подробнее

DeepSeek представляет DeepSeek-Prover-V2: развитие нейронного доказательства теорем с помощью рекурсивного поиска доказательств и нового эталонного теста

2025-04-30 15:46:20

DeepSeek AI выпускает DeepSeek-Prover-V2 — открытую нейросеть (LLM), предназначенную для доказательства теорем в Lean 4. Она применяет рекурсивный поиск доказательств совместно с использованием DeepSeek-V3 для тренировочных данных и подкрепляющего обучения, достигая наилучших результатов на наборе M...

Читать оригинал Подробнее

OpenGVLab: Внутренний VL3 14Б (open-gv-lab/intern-vl3-14b) Note: The original text seems to be a repository name or project identifier, so I've kept it as close to the original as possible while making it more readable in Russian. However, "InternVL3" and "14B" are likely not standard technical terms and might need clarification depending on context.

2025-04-30 13:55:55

Версия 14b серии InternVL3. Серия передовых многофункциональных крупномасштабных языковых моделей (MLLM), демонстрирующая превосходную общую производительность. В сравнении с InternVL 2.5, InternVL3 обладает превосходными возможностями многофункционального восприятия и логического вывода, а также ра...

Читать оригинал Подробнее

OpenGVLab: InternVL3 2B (opengvlab/internvl3-2b) (перевод идентичен оригиналу, поскольку название проекта является техническим термином и не требует перевода)

2025-04-30 13:30:07

Версия 2b серии моделей InternVL3 обеспечивает еще большую скорость вывода и весьма разумную производительность. Это передовая серия мультимодальных больших языковых моделей (MLLM), демонстрирующая превосходную общую производительность. По сравнению с InternVL 2.5, InternVL3 демонстрирует улучшенные...

Читать оригинал Подробнее

DeepSeek: DeepSeek Prover V2 (deepseek/deepseek-prover-v2) (Точный перевод названия сохранён, поскольку оно является именем собственным.)

2025-04-30 11:38:14

DeepSeek Prover V2 — это модель с 671 миллиардом параметров, предположительно ориентированная на логику и математику. Вероятно, она является улучшенной версией модели DeepSeek-Prover-V1.5. Пока еще немного известно о данной модели, поскольку компания DeepSeek разместила её на платформе Hugging Face ...

Читать оригинал Подробнее

Тестирование производительности больших языковых моделей (LLM) для глобального здравоохранения

2025-04-30 10:33:00

Генеративный ИИ

Читать оригинал Подробнее

Мета: Ллама Гард 4 12B (meta-llama/llama-guard-4-12b)

2025-04-30 01:06:33

Llama Guard 4 — это мультимодальная предварительно обученная модель, основанная на архитектуре Llama 4 Scout и дообученная для классификации безопасности контента. Подобно предыдущим версиям, она способна классифицировать контент как во входных данных языковой модели (классификация запросов), так и ...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)