Обучение моменту взгляда: разделимая учебная программа для стратегического восприятия в многосенсорном рассуждении
Краткое содержание
arXiv:2512.17227v1 Тип объявления: новое Аннотация: Многоуровневые большие языковые модели (MLLM) демонстрируют значительный потенциал, но остаются хрупкими в сложных задачах длинной цепочки зрительного рассуждения. Критический режим неудачи - "забывание зрения", когда модели постепенно теряют зрительную основу по мере расширения рассуждений, явление, которое уместно описывать как "думай дольше, видишь меньше". Мы предполагаем, что эта неудача возникает из-за текущих методов обучения, которые слишком рано объединяют два различных когнитивных навыка: (1) абстрактное логическое рассуждение ("как думать") и (2) стратегическое зрительное восприятие ("когда смотреть"). Это создает фундаментальную проблему "холодного старта" - ослабление абстрактного рассуждения - и дефицит стратегического восприятия, поскольку модели не имеют политики для определения момента восприятия. В этой статье мы предлагаем новую учебно-курсивную рамку для разъединения этих навыков. Сначала мы вводим учебный курс диссоциированного контролируемого дообучения (SFT), который строит прочную основу абстрактного рассуждения на данных только текста, прежде чем закреплять ее
Полный текст статьи пока не загружен.