← Вернуться к списку

Смесь состояний: маршрутизация динамики на уровне токенов для мультимодального генерации

Краткое содержание

arXiv:2511.12207v1 Тип: новая статья Аннотация: Мы представляем MoS (Mixture of States), новую парадигму слияния для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких, основанных на состояниях взаимодействий. Основу MoS составляет обучаемый, покомпонентный маршрутизатор, который создает зависящие от шага понижения шума и входных данных взаимодействия между скрытыми состояниями модальностей, точно выравнивая компонентные особенности с диффузионной траекторией. Этот маршрутизатор разреженно выбирает топ-$k$ скрытых состояний и обучается по стратегии $\epsilon$-greedy, эффективно отбирая контекстные особенности при минимальном количестве обучаемых параметров и незначительных вычислительных затратах. Мы проверяем нашу разработку на задачах генерации (MoS-Image) и редактирования (MoS-Editing) изображений по тексту, которые достигают передовых результатов. Всего с 3 до 5 миллиардов параметров наши модели соответствуют или превосходят аналоги размером до $4\times$ больше. Эти результаты устанавливают MoS как гибкую и эффективную по вычислениям парадигму для масштабирования мультимодальных диффузионных моделей.

Полный текст статьи пока не загружен.