← Вернуться к списку

Байду: ERNIE 4.5 21B A3B (baidu/ernie-4.5-21b-a3b)

Краткое содержание

Сложная текстовая модель типа смесь-экспертов (MoE), содержащая всего 21 миллиард параметров, из которых активируется 3 миллиарда на токен, обеспечивающая выдающееся мультимодальное понимание и генерацию благодаря гетерогенным структурам MoE и маршрутизации по отдельным модальностям. Поддерживая обширную длину контекста до 131 тысячи токенов, модель обеспечивает эффективную обработку через параллельное сотрудничество экспертов и квантование, тогда как передовые постобучающие техники, такие как Fine-Tuning с подкреплением (SFT), обучение с предпочтением (DPO) и оптимизация полезности (UPO), гарантируют оптимальное выполнение различных приложений посредством специализированной маршрутизации и балансировочных потерь для превосходной обработки задач.

Полный текст статьи пока не загружен.