← Вернуться к списку

Начинайте с малого, думайте масштабно: оптимизация политики на основе учебного плана для визуального заземления

Краткое содержание

arXiv:2511.13924v1 Тип объявления: новый Аннотация: Подход цепочки рассуждений (Chain-of-Thought, CoT) недавно продемонстрировал значительный потенциал в различных задачах обработки естественного языка и компьютерного зрения за счет явной генерации промежуточных шагов рассуждения. Однако мы обнаружили, что дообучение на основе обучения с подкреплением (reinforcement learning, RL) для рассуждений по методу CoT может парадоксальным образом ухудшить производительность при решении задачи визуального позиционирования объектов, особенно когда выходы CoT становятся длинными или сложными. Кроме того, наш анализ показывает, что увеличение размера набора данных не всегда приводит к улучшению производительности из-за различной сложности данных. Вдохновленные этими выводами, мы предлагаем стратегию обучения на основе учебной программы — оптимизацию относительной политики на основе учебного плана (Curriculum-based Relative Policy Optimization, CuRPO). Этот подход использует длину цепочек рассуждений CoT и обобщенные метрики пересечения по объединению (generalized Intersection over Union, gIoU) как индикаторы сложности для постепенного структурирования обучающих данных от более простых примеров к более сложным. Обширные эксперименты на наборах данных RefCOCO, RefCOCO+, RefCOCOg и LISA демонстрируют эффективность нашего подхода. CuRPO последовательно

Полный текст статьи пока не загружен.