Сбросить

Llama Guard 3 — это предварительно обученная модель на основе архитектуры Llama версии 3.1 с размером модели 8 миллиардов параметров, дообученная для классификации безопасности контента. Аналогично предыдущим версиям, она способна классифицировать контент как во входных данных моделей больших языков...

OpenAI o3-mini-high — это та же самая модель, что и o3-mini, но с параметром reasoning_effort установленным на высокий уровень. Модель o3-mini представляет собой экономически эффективный языковой инструмент, оптимизированный для решения задач в области естественных наук (STEM), особенно хорошо проя...

Tülu 3 405B — самая крупная модель семейства Tülu 3, использующая полностью открытую рецептуру пост-обучения на масштабе 405 миллиардов параметров. Построенная на основе базовой модели Llama 3.1 405B, она применяет обучение с подкреплением проверяемыми вознаграждениями (RLVR), чтобы улучшить выполне...

DeepSeek R1 Distill Llama 8B — дистиллированная большая языковая модель, основанная на Llama-3.1-8B-Instruct, использующая результаты работы модели DeepSeek R1. Модель объединяет передовые методы дистилляции, чтобы достичь высокой производительности сразу по нескольким бенчмаркам, включая следующие ...

Вопросы: Я тренирую глубокие нейронные сети и слышал, что изменение конфигураций системы (таких как CUDA, cuDNN, аппаратное обеспечение или даже версия ОС) иногда может привести к разным результатам обучения, даже при использовании одного и того же набора данных, архитектуры модели и гиперпараметров...

Gemini Flash 2.0 обеспечивает значительно меньшее время до выдачи первого токена (TTFT) по сравнению с Gemini Flash 1.5, при сохранении качества на уровне больших моделей вроде Gemini Pro 1.5. В новой версии представлены значительные улучшения в области мультимодального понимания, возможностей прогр...

Усовершенствованная крупная визуальная языковая модель Qwen. Значительно улучшена для детального распознавания объектов и текста, поддерживает ультравысокое разрешение изображений до миллионов пикселей и экстремальные соотношения сторон входных изображений. Обеспечивает значительное повышение произв...

Aion-1.0 – это мультимодельная система, разработанная для достижения высокой производительности в различных задачах, включая рассуждения и кодирование. Она построена на базе DeepSeek-R1 и дополняется дополнительными моделями и техниками, такими как "Дерево Мыслей" (ToT) и "Смесь Экспертов" (MoE). Эт...