Ветвь или слой? Оптимизация нулевого порядка для непрерывного обучения моделей видения и языка
Краткое содержание
arXiv:2506.12409v2 Тип объявления: замена Аннотация: Обучение с непрерывным восприятием языка и изображений (Vision-Language Continual Learning — VLCL) привлекло значительное внимание исследователей благодаря своим мощным возможностям, а применение стратегий параметрически эффективного дообучения (Parameter-Efficient Fine-Tuning — PEFT) позволяет этим моделям достигать конкурентоспособной производительности при значительно меньшем потреблении ресурсов. Однако доминирующая оптимизация первого порядка (First-Order — FO) склонна попадать в субоптимальные локальные минимумы, особенно в ограниченном пространстве поиска внутри PEFT. Для преодоления этой проблемы данная статья впервые проводит систематическое исследование применения оптимизации нулевого порядка (Zeroth-Order — ZO) для PEFT на основе VLCL. Сначала мы выявляем несовместимость простого полного подхода ZO в VLCL из-за нестабильности процесса оптимизации. Затем исследуем применение оптимизации ZO от уровня отдельных ветвей восприятия к более детальному уровню слоев по различным обучающим единицам, чтобы определить оптимальную стратегию. Кроме того, ключевое теоретическое понимание показывает, что визуальная модальность демонстрирует
Полный текст статьи пока не загружен.