Uni-MoE-2.0-Omni: Масштабирование ориентированной на обработку естественного языка омнимодальной крупной модели с использованием продвинутого подхода Mixture-of-Experts (MoE), методов обучения и данных
Краткое содержание
arXiv:2511.12609v1 Тип объявления: кросс Аннотация: Мы представляем Uni-MoE 2.0 из семейства Lychee. В качестве полностью открытого омнимодального большого моделирующего инструмента (OLM) она существенно развивает серию моделей Uni-MoE от Lychee в области ориентированного на язык мультимодального понимания, рассуждения и генерации. Основываясь на плотной архитектуре Qwen2.5-7B, мы создали Uni-MoE-2.0-Omni с нуля через три ключевых вклада: динамическую структуру смеси экспертов (MoE) с переменной пропускной способностью, прогрессивную стратегию обучения, усиленную итерационной стратегией подкрепления, и тщательно подобранный метод сопоставления мультимодальных данных. Она способна к омнимодальному пониманию, а также генерации изображений, текста и речи. Архитектурно наша новая структура MoE обеспечивает баланс вычислительной эффективности и возможностей обработки десяти межмодальных входных сигналов с использованием общих, маршрутизируемых и нулевых экспертов, тогда как наш механизм Omni-Modality 3D RoPE гарантирует пространственно-временное согласование между модальностями в слое само-внимания. Для обучения после предварительного кросс-модального обучения мы используем прогр...
Полный текст статьи пока не загружен.