← Вернуться к списку

DeepSeek: базовая версия DeepSeek V3.1 (deepseek/deepseek-v3.1-base)

Краткое содержание

Это базовая модель, обученная исключительно для предсказания следующего токена. В отличие от моделей инструкций/чатов, она не была дообучена следовать указаниям пользователей. Подсказки нужно формулировать больше как тренировочный текст или примеры, нежели как простые запросы (например: «Переведите следующее предложение…», а не просто «Переведите это»). DeepSeek-V3.1 Base — открытая языковая модель типа смесь-экспертов (MoE), состоящая из 671 миллиарда параметров, из которых активно используется 37 миллиардов параметров на один проход прямого распространения и имеющая контекст длиной 128К токенов. Обучение проводилось на наборе из 14,8 триллионов токенов с использованием смешанной точности FP8, что обеспечивает высокую эффективность и стабильность тренировки, демонстрируя сильные результаты в задачах обработки естественного языка, рассуждений, математики и программирования.

Полный текст статьи пока не загружен.