VIR-Bench: Оценка геопространственного и темпорального понимания MLLM через реконструкцию маршрута по видеозаписям путешествий
Краткое содержание
arXiv:2509.19002v2 Тип объявления: replace-cross Аннотация: Последние достижения в области мультимодальных больших языковых моделей (МБЯМ) значительно расширили возможности понимания видео, открывая новые перспективы для практического применения. Однако современные видео-бенчмарки в основном сосредоточены на сценах в помещении или кратковременной активности на открытом воздухе, оставляя проблемы, связанные с преодолением больших расстояний, практически неисследованными. Овладение протяженными геопространственно-временными траекториями критически важно для МБЯМ следующего поколения, лежа в основе таких практических задач, как планирование и навигация для воплощенного ИИ. Чтобы заполнить этот пробел, мы представляем VIR-Bench — новый бенчмарк, состоящий из 200 туристических видеороликов, который формулирует реконструкцию маршрута как сложную задачу, предназначенную для оценки и развития геопространственно-временного интеллекта МБЯМ. Результаты экспериментов показывают, что передовые МБЯМ, включая проприетарные, с трудом набирают высокие баллы, что подчеркивает сложность обработки видео, охватывающих обширные пространственные и
Полный текст статьи пока не загружен.