Технический отчет Motif 2 12.7B

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.07464v1 Тип объявления: кросс Аннотация: Мы представляем Motif-2-12.7B — новую открытую базовую модель, расширяющую границы эффективности больших языковых моделей благодаря сочетанию архитектурных инноваций и оптимизации на уровне системы. Разработанная для масштабируемого понимания языка и надежной обобщаемости инструкций в условиях ограниченных вычислительных ресурсов, Motif-2-12.7B основана на модели Motif-2.6B с добавлением Группированного Дифференциального Внимания (Grouped Differential Attention, GDA), которое повышает эффективность представления путем разделения сигнального пути внимания от шумоподавляющего. Модель предварительно обучена на 5,5 триллионах токенов, охватывающих разнообразные лингвистические, математические, научные и программистские области, используя учебный планировщик данных, постепенно меняющий соотношение состава данных. Система обучения задействует оптимизатор MuonClip совместно с кастомизированными высокопроизводительными ядрами, включая объединённые активационные функции PolyNorm и алгоритм Parallel Muon, обеспечивая значительное повышение пропускной способности и эффективности памяти.

Полный текст статьи пока не загружен.

Читать оригинал статьи