DeepSeek: DeepSeek R1 Zero (deepseek/deepseek-r1-zero) (перевод идентичен оригиналу, поскольку название продукта является собственным именем и не требует перевода)

2025-03-06 21:43:54

Краткое содержание

DeepSeek-R1-Zero — это модель, обученная методом крупномасштабного обучения с подкреплением (RL), без предварительного этапа дообучения с учителем (SFT). Она имеет размерность 671 млрд параметров, из которых активно используется 37 млрд при выполнении вывода. Модель демонстрирует выдающиеся результаты в области рассуждений. Благодаря обучению с подкреплением, в DeepSeek-R1-Zero естественным образом сформировались многочисленные мощные и интересные способности к рассуждающему поведению. Тем не менее, DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечное повторение, плохая читаемость текста и смешивание языков. См. версию DeepSeek R1 для модели с дообучением с учителем (SFT).

Полный текст статьи пока не загружен.

Читать оригинал статьи