Главная - AST-AIHub

Создание искусственного интеллекта для плюралистического общества

2025-02-13 09:00:00

Генеративный ИИ

Ллама Гард 3 8B (мета-ллама/ллама-гард-3-8б)

2025-02-12 23:01:58

Llama Guard 3 — это предварительно обученная модель на основе архитектуры Llama версии 3.1 с размером модели 8 миллиардов параметров, дообученная для классификации безопасности контента. Аналогично предыдущим версиям, она способна классифицировать контент как во входных данных моделей больших языков...

Читать оригинал Подробнее

OpenAI: o3 Мини Высокий (openai/o3-mini-high)

2025-02-12 15:03:31

OpenAI o3-mini-high — это та же самая модель, что и o3-mini, но с параметром reasoning_effort установленным на высокий уровень. Модель o3-mini представляет собой экономически эффективный языковой инструмент, оптимизированный для решения задач в области естественных наук (STEM), особенно хорошо проя...

Читать оригинал Подробнее

Ллама 3.1 Тулу 3 405Б (allenai/llama-3.1-tulu-3-405b)

2025-02-08 22:23:41

Tülu 3 405B — самая крупная модель семейства Tülu 3, использующая полностью открытую рецептуру пост-обучения на масштабе 405 миллиардов параметров. Построенная на основе базовой модели Llama 3.1 405B, она применяет обучение с подкреплением проверяемыми вознаграждениями (RLVR), чтобы улучшить выполне...

Читать оригинал Подробнее

DeepSeek: R1 дистиллят LLaMA 8B (deepseek/deepseek-r1-distill-llama-8b)

2025-02-07 14:15:18

DeepSeek R1 Distill Llama 8B — дистиллированная большая языковая модель, основанная на Llama-3.1-8B-Instruct, использующая результаты работы модели DeepSeek R1. Модель объединяет передовые методы дистилляции, чтобы достичь высокой производительности сразу по нескольким бенчмаркам, включая следующие ...

Читать оригинал Подробнее

Влияет ли изменение версий CUDA, cuDNN, ОС (и т.д.) на результаты обучения глубоких нейронных сетей?

2025-02-06 13:40:30

Вопросы: Я тренирую глубокие нейронные сети и слышал, что изменение конфигураций системы (таких как CUDA, cuDNN, аппаратное обеспечение или даже версия ОС) иногда может привести к разным результатам обучения, даже при использовании одного и того же набора данных, архитектуры модели и гиперпараметров...

Читать оригинал Подробнее

Gemini 2.0 теперь доступен всем.

2025-02-05 16:00:00

Мы объявляем о новых обновлениях для Gemini 2.0 Flash, а также представляем Gemini 2.0 Flash-Lite и Gemini 2.0 Pro Experimental.

Читать оригинал Подробнее

Гугл: Джемини 2.0 Флэш (google/gemini-2.0-flash-001)

2025-02-05 15:30:13

Gemini Flash 2.0 обеспечивает значительно меньшее время до выдачи первого токена (TTFT) по сравнению с Gemini Flash 1.5, при сохранении качества на уровне больших моделей вроде Gemini Pro 1.5. В новой версии представлены значительные улучшения в области мультимодального понимания, возможностей прогр...

Читать оригинал Подробнее

Qwen: Qwen VL Плюс (qwen/qwen-vl-plus)

2025-02-05 04:54:15

Усовершенствованная крупная визуальная языковая модель Qwen. Значительно улучшена для детального распознавания объектов и текста, поддерживает ультравысокое разрешение изображений до миллионов пикселей и экстремальные соотношения сторон входных изображений. Обеспечивает значительное повышение произв...

Читать оригинал Подробнее

AionLabs: Aion-1.0 (aion-labs/aion-1.0) – Aion 1.0 (aion-labs/aion-1.0)

2025-02-04 19:32:37

Aion-1.0 – это мультимодельная система, разработанная для достижения высокой производительности в различных задачах, включая рассуждения и кодирование. Она построена на базе DeepSeek-R1 и дополняется дополнительными моделями и техниками, такими как "Дерево Мыслей" (ToT) и "Смесь Экспертов" (MoE). Эт...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)