SIMS-V: Симулированная настройка инструкций для пространственного понимания видео
Краткое содержание
arXiv:2511.04668v2 Тип объявления: замена Аннотация: Несмотря на впечатляющие результаты высокоуровневого понимания видеоданных, мультимодальные языковые модели испытывают трудности с пространственным рассуждением во времени и пространстве. В то время как современные подходы к обучению пространственному восприятию полагаются на реальные видеоматериалы, получение разнообразной видеозаписи с точной пространственной аннотацией остается узким местом. Для устранения этой проблемы мы представляем SIMS-V — систематический фреймворк генерации данных, который использует привилегированную информацию трехмерных симуляторов для создания насыщенных пространственными метаданными видеоданных для тренировки мультимодальных языковых моделей. С помощью данного фреймворка мы исследуем, какие свойства синтетических данных обеспечивают эффективное переносное обучение на реальных данных через систематическое исключение различных типов вопросов, смесей и масштабов. Мы выделяем минимальный набор из трёх категорий вопросов (метрические измерения, зависящие от перспективы рассуждения и отслеживание временных изменений), которые оказываются наиболее эффективными для развития переносимого пространственного интеллекта, превосходя по результатам полные наборы признаков несмотря на использование
Полный текст статьи пока не загружен.