BOFA: Ортогональная низкоранговая слияние мостового слоя для инкрементного обучения классов на основе CLIP
Краткое содержание
arXiv:2511.11421v1 Тип объявления: кросс Аннотация: Обучение с постепенным добавлением классов (Class-Incremental Learning — CIL) направлено на непрерывное освоение новых категорий без утраты ранее приобретённых знаний. Модели видения и языка, такие как CLIP, предлагают сильные переносимые представления благодаря мультимодальному обучению, что делает их перспективными для решения задач CIL. Однако применение CLIP к задаче CIL сталкивается с двумя основными проблемами: (1) адаптация модели к последующим задачам часто требует введения дополнительных настраиваемых модулей, что увеличивает сложность модели и повышает риск забывания старых знаний; и (2) хотя мультимодальные представления обладают взаимодополняющими преимуществами, существующие методы пока не смогли полностью раскрыть потенциал эффективного объединения визуальной и текстовой модальностей. Для преодоления указанных трудностей мы предлагаем BOFA (Bridge-layer Orthogonal Fusion for Adaptation) — новую архитектуру для CIL. В рамках подхода BOFA вся адаптация модели ограничивается исключительно существующим межмодальным мостовым слоем CLIP, исключая добавление каких-либо дополнительных параметров и затрат на вывод. Чтобы предотвратить потерю уже усвоенных знаний внутри этого слоя...
Полный текст статьи пока не загружен.