TEMPLE: Стимулирование понимания временной структуры видеоматериалов большими языко-ориентированными моделями через прогрессивную предварительную адаптацию методом SFT
Краткое содержание
arXiv:2503.16929v3 Тип объявления: замена Аннотация: Модели больших языковых моделей для видео (Video LLMs) добились значительных успехов благодаря парадигме крупномасштабной предобученности с последующим контролируемым дообучением (SFT). Однако существующие подходы сталкиваются с проблемами временного вывода вследствие слабого соответствия во временной области данных и чрезмерной зависимости от парадигмы предсказания следующего токена, что совместно приводит к отсутствию временной супервизии. Для устранения указанных ограничений мы предлагаем метод TEMPLE (Temporal Preference Learning — обучение временным предпочтениям), систематический подход, который улучшает способности к временному выводу посредством прямого оптимизационного метода предпочтений (Direct Preference Optimization, DPO). Чтобы решить проблему нехватки временных сведений в данных, мы вводим автоматизированный конвейер для систематического построения пар предпочтений, насыщенных информацией о временно́й структуре, состоящий из трех этапов: выборка видеофайлов, богатых временной динамикой, разработка специфичных для видео стратегий возмущений и оценка откликов модели на исходные и возмущенные входные данные. Дополняющий этот подход к данным...
Полный текст статьи пока не загружен.