Сохранение межмодальной согласованности для класс-инкрементального обучения на основе CLIP
Краткое содержание
arXiv:2511.10974v1 Тип объявления: новый Аннотация: Обучение с увеличением классов (Class-Incremental Learning — CIL) позволяет моделям непрерывно осваивать новые категории последовательных задач, не забывая ранее приобретённые знания. Хотя недавние достижения моделей видо-речевого взаимодействия, такие как CLIP, продемонстрировали сильную обобщающую способность между доменами, расширение их возможностей до непрерывных сценариев остаётся сложной задачей. В частности, обучение специфичных для задачи мягких подсказок для вновь введённых классов часто приводит к серьёзному смещению классификатора, поскольку прототипы текста переобучаются на последние категории при отсутствии предыдущих данных. В данной работе мы предлагаем DMC — простой, но эффективный двухэтапный подход для CIL на основе CLIP, который разделяет адаптацию визуального энкодера и оптимизацию текстовых мягких подсказок. Каждый этап обучается при замороженном другом этапе, позволяя одной модальности выступать стабильной семантической опорой для другой, чтобы сохранить межмодальное согласование. Более того, современные подходы на основе CLIP для CIL обычно хранят классовые...
Полный текст статьи пока не загружен.