Байду: ERNIE 4.5 VL 424B A47B (baidu/ernie-4.5-vl-424b-a47b)
Краткое содержание
ERNIE-4.5-VL-424B-A47B — мультимодальная модель типа Mixture-of-Experts (MoE), разработанная в рамках серии ERNIE 4.5 от компании Baidu. Модель обладает общим количеством параметров 424 миллиарда, из которых активны 47 миллиардов на токен. Обучение проводилось совместно на текстовых и визуальных данных с использованием гетерогенной архитектуры MoE и изолированного маршрутизатора модальности, что позволяет осуществлять высокоэффективное кросс-модальное рассуждение, понимание изображений и генерацию длинных контекстов (до 131 тыс. токенов). Модель дообучалась методами SFT, DPO, UPO и RLVR, поддерживая режимы вывода как с элементами размышления («thinking»), так и без них. Предназначена для выполнения задач обработки визуальной и языковой информации на английском и китайском языках, оптимизирована для эффективного масштабирования и способна функционировать при квантовании 4 бит / 8 бит.
Полный текст статьи пока не загружен.