DeepSeek: базовая версия DeepSeek V3 (deepseek/deepseek-v3-base)
Краткое содержание
Обратите внимание, что данная модель является базовой и предназначена главным образом для тестирования — вам потребуется давать детальные подсказки, чтобы получать от модели полезные отклики. DeepSeek-V3 Base представляет собой открытую экспертную смесь (Mixture-of-Experts, MoE), состоящую из 671 миллиарда параметров, из которых активно задействуются лишь 37 миллиардов параметров на каждый проход вперёд, с длиной контекста до 128 тысяч токенов. Обученная на 14,8 триллионах токенов с использованием смешанной точности FP8, она демонстрирует высокую эффективность и стабильность обучения, показывая сильные результаты в задачах обработки естественного языка, рассуждений, математики и программирования. DeepSeek-V3 Base служит предварительно обученной моделью для DeepSeek V3.
Полный текст статьи пока не загружен.