ERMoE: Собственная Репараметризация Смеси Экспертов для Устойчивого Маршрутизирования и Интерпретируемой Специализации
Краткое содержание
arXiv:2511.10971v1 Тип объявления: новый Аннотация: Архитектуры типа смесь-экспертов (MoE) расширяют емкость модели путем разреженного активирования экспертов, однако сталкиваются с двумя основными проблемами: рассогласование между маршрутизирующими логитами и внутренней структурой каждого эксперта приводит к нестабильной маршрутизации и недоиспользованию экспертов, а дисбаланс нагрузки создает узкие места из-за отставания отдельных узлов. Стандартные решения, такие как дополнительные потери балансировки нагрузки, способны уменьшить различия в нагрузке, но часто ослабляют специализацию экспертов и ухудшают производительность на последующих этапах обработки. Для устранения этих проблем мы предлагаем архитектуру ERMoE — разреженный трансформер MoE, который репараметризует каждого эксперта в изученном ортонормированном базисе собственных векторов и заменяет изученные коэффициенты маршрутизации на «Оценку собственного базиса», определяемую как косинусное сходство между входными признаками и собственным базисом эксперта. Такая контент-зависимая маршрутизация связывает назначение токенов непосредственно с пространством представлений экспертов, стабилизируя использование ресурсов и способствуя интерпретируемой специализации без ущерба для разреженности. Важно отметить, что архитектура ERMoE...
Полный текст статьи пока не загружен.