Ветвь или слой? Оптимизация нулевого порядка для непрерывного обучения моделей видения и языка

2025-11-19 05:00:00

Краткое содержание

arXiv:2506.12409v2 Тип объявления: замена Аннотация: Обучение с непрерывным восприятием языка и изображений (Vision-Language Continual Learning — VLCL) привлекло значительное внимание исследователей благодаря своим мощным возможностям, а применение стратегий параметрически эффективного дообучения (Parameter-Efficient Fine-Tuning — PEFT) позволяет этим моделям достигать конкурентоспособной производительности при значительно меньшем потреблении ресурсов. Однако доминирующая оптимизация первого порядка (First-Order — FO) склонна попадать в субоптимальные локальные минимумы, особенно в ограниченном пространстве поиска внутри PEFT. Для преодоления этой проблемы данная статья впервые проводит систематическое исследование применения оптимизации нулевого порядка (Zeroth-Order — ZO) для PEFT на основе VLCL. Сначала мы выявляем несовместимость простого полного подхода ZO в VLCL из-за нестабильности процесса оптимизации. Затем исследуем применение оптимизации ZO от уровня отдельных ветвей восприятия к более детальному уровню слоев по различным обучающим единицам, чтобы определить оптимальную стратегию. Кроме того, ключевое теоретическое понимание показывает, что визуальная модальность демонстрирует

Полный текст статьи пока не загружен.

Читать оригинал статьи