MOON2.0: Динамическое сбалансированное по модальностям обучение мультимодальным представлениям для понимания товаров в электронной коммерции
Краткое содержание
arXiv:2511.12449v1 Тип: кросс-платформенный Аннотация: Стремительный рост электронной коммерции требует многомодальных моделей, способных интерпретировать насыщенную визуальную и текстовую информацию о товарах. Хотя современные многомодальные большие языковые модели (МБЯМ) для понимания товаров демонстрируют высокую эффективность в обучении представлений для электронной коммерции, они по-прежнему сталкиваются с тремя проблемами: (i) дисбаланс модальностей, вызванный смешанным обучением; (ii) неполное использование внутренних отношений согласованности между визуальной и текстовой информацией в рамках одного товара; и (iii) ограниченная обработка шумов в многомодальных данных электронной коммерции. Для решения этих проблем мы предлагаем MOON2.0 — динамическую сбалансированную по модальностям систему обучения многомодальных представлений для понимания товаров. MOON2.0 включает: (1) модуль Модально-ориентированной Смеси Экспертов (MoE), который адаптивно обрабатывает входные выборки по их модальному составу, обеспечивая Совместное Многомодальное Обучение для устранения дисбаланса модальностей; (2) метод Двухуровневого Согласования
Полный текст статьи пока не загружен.