Генеративный ИИ
Лента материалов из области искусственного интеллекта (AI)
Материалов: 79746
Llama Guard 3 — это предварительно обученная модель на основе архитектуры Llama версии 3.1 с размером модели 8 миллиардов параметров, дообученная для классификации безопасности контента. Аналогично предыдущим версиям, она способна классифицировать контент как во входных данных моделей больших языков...
OpenAI o3-mini-high — это та же самая модель, что и o3-mini, но с параметром reasoning_effort установленным на высокий уровень. Модель o3-mini представляет собой экономически эффективный языковой инструмент, оптимизированный для решения задач в области естественных наук (STEM), особенно хорошо проя...
Tülu 3 405B — самая крупная модель семейства Tülu 3, использующая полностью открытую рецептуру пост-обучения на масштабе 405 миллиардов параметров. Построенная на основе базовой модели Llama 3.1 405B, она применяет обучение с подкреплением проверяемыми вознаграждениями (RLVR), чтобы улучшить выполне...
DeepSeek R1 Distill Llama 8B — дистиллированная большая языковая модель, основанная на Llama-3.1-8B-Instruct, использующая результаты работы модели DeepSeek R1. Модель объединяет передовые методы дистилляции, чтобы достичь высокой производительности сразу по нескольким бенчмаркам, включая следующие ...
Влияет ли изменение версий CUDA, cuDNN, ОС (и т.д.) на результаты обучения глубоких нейронных сетей?
Вопросы: Я тренирую глубокие нейронные сети и слышал, что изменение конфигураций системы (таких как CUDA, cuDNN, аппаратное обеспечение или даже версия ОС) иногда может привести к разным результатам обучения, даже при использовании одного и того же набора данных, архитектуры модели и гиперпараметров...
Мы объявляем о новых обновлениях для Gemini 2.0 Flash, а также представляем Gemini 2.0 Flash-Lite и Gemini 2.0 Pro Experimental.
Gemini Flash 2.0 обеспечивает значительно меньшее время до выдачи первого токена (TTFT) по сравнению с Gemini Flash 1.5, при сохранении качества на уровне больших моделей вроде Gemini Pro 1.5. В новой версии представлены значительные улучшения в области мультимодального понимания, возможностей прогр...
Усовершенствованная крупная визуальная языковая модель Qwen. Значительно улучшена для детального распознавания объектов и текста, поддерживает ультравысокое разрешение изображений до миллионов пикселей и экстремальные соотношения сторон входных изображений. Обеспечивает значительное повышение произв...
Aion-1.0 – это мультимодельная система, разработанная для достижения высокой производительности в различных задачах, включая рассуждения и кодирование. Она построена на базе DeepSeek-R1 и дополняется дополнительными моделями и техниками, такими как "Дерево Мыслей" (ToT) и "Смесь Экспертов" (MoE). Эт...